← Back to feed
Papers·6일 전

StraTA: 계층적 RL로 장기 의사결정 강화 — ALFWorld 93.1%, WebShop 84.2%

StraTA: 계층적 RL로 장기 의사결정 강화 — ALFWorld 93.1%, WebShop 84.2%

LLM을 대화형 에이전트로 활용할 때 순수 반응형 정책은 장기 궤적에서 탐색과 신용 할당이 약합니다. 이에 제안된 StraTA는 초기 상태에서 전략을 추출하고, 계층적 GRPO 스타일 롤아웃으로 전략 생성과 행동 실행을 공동 학습합니다. ALFWorld 93.1%, WebShop 84.2%, SciWorld 63.5%로 강력한 오픈소스 및 폐쇄형 모델을 능가했으나, SciWorld의 경우 태스크 다양성에 따른 일반화 검증이 더 필요해 보입니다.

  • #reinforcement-learning
  • #llm-agents
  • #hierarchical-rl
  • #alfworld
  • #webshop
Xiangyuan Xue

Comments

— 첫 댓글을 남겨보세요 —