Papers·1개월 전

StraTA: 계층적 RL로 장기 의사결정 강화 — ALFWorld 93.1%, WebShop 84.2%

LLM을 대화형 에이전트로 활용할 때 순수 반응형 정책은 장기 궤적에서 탐색과 신용 할당이 약합니다. 이에 제안된 StraTA는 초기 상태에서 전략을 추출하고, 계층적 GRPO 스타일 롤아웃으로 전략 생성과 행동 실행을 공동 학습합니다. ALFWorld 93.1%, WebShop 84.2%, SciWorld 63.5%로 강력한 오픈소스 및 폐쇄형 모델을 능가했으나, SciWorld의 경우 태스크 다양성에 따른 일반화 검증이 더 필요해 보입니다.

#reinforcement-learning
#llm-agents
#hierarchical-rl
#alfworld
#webshop

Xiangyuan Xue

원문 보기 →

StraTA: 계층적 RL로 장기 의사결정 강화 — ALFWorld 93.1%, WebShop 84.2%

Comments