← Back to feed
Papers·1주 전

KAIST, 장기 과제 LLM 에이전트 학습 효율을 높이는 HINT-SD — 실패 구간만 골라 피드백 증류

KAIST, 장기 과제 LLM 에이전트 학습 효율을 높이는 HINT-SD — 실패 구간만 골라 피드백 증류

KAIST 팀이 장기 과제 LLM 에이전트 학습에서 sparse reward 문제를 해결하는 HINT-SD 프레임워크를 제안했습니다. 전체 궤적을 되돌아보며 실패에 기여한 action 구간만 선별해 feedback-conditioned distillation을 적용하는 방식으로, BFCL v3와 AppWorld 벤치마크에서 dense per-turn feedback 대비 최대 18.80% 성능 향상과 2.26배 빠른 학습 속도를 달성했습니다. 다만 distillation 대상 선정을 위한 hindsight 계산이 추가로 필요해, 온라인 학습 환경에서는 오버헤드가 발생할 수 있다는 점을 고려해야 합니다.

  • #reinforcement-learning
  • #llm-agents
  • #self-distillation
  • #kaist
KAIST AI

Comments

— 첫 댓글을 남겨보세요 —