Papers·1개월 전

KAIST, 장기 과제 LLM 에이전트 학습 효율을 높이는 HINT-SD — 실패 구간만 골라 피드백 증류

KAIST 팀이 장기 과제 LLM 에이전트 학습에서 sparse reward 문제를 해결하는 HINT-SD 프레임워크를 제안했습니다. 전체 궤적을 되돌아보며 실패에 기여한 action 구간만 선별해 feedback-conditioned distillation을 적용하는 방식으로, BFCL v3와 AppWorld 벤치마크에서 dense per-turn feedback 대비 최대 18.80% 성능 향상과 2.26배 빠른 학습 속도를 달성했습니다. 다만 distillation 대상 선정을 위한 hindsight 계산이 추가로 필요해, 온라인 학습 환경에서는 오버헤드가 발생할 수 있다는 점을 고려해야 합니다.

#reinforcement-learning
#llm-agents
#self-distillation
#kaist

KAIST AI

원문 보기 →

KAIST, 장기 과제 LLM 에이전트 학습 효율을 높이는 HINT-SD — 실패 구간만 골라 피드백 증류

Comments