Papers·6일 전
StraTA: 계층적 RL로 장기 의사결정 강화 — ALFWorld 93.1%, WebShop 84.2%

LLM을 대화형 에이전트로 활용할 때 순수 반응형 정책은 장기 궤적에서 탐색과 신용 할당이 약합니다. 이에 제안된 StraTA는 초기 상태에서 전략을 추출하고, 계층적 GRPO 스타일 롤아웃으로 전략 생성과 행동 실행을 공동 학습합니다. ALFWorld 93.1%, WebShop 84.2%, SciWorld 63.5%로 강력한 오픈소스 및 폐쇄형 모델을 능가했으나, SciWorld의 경우 태스크 다양성에 따른 일반화 검증이 더 필요해 보입니다.
- #reinforcement-learning
- #llm-agents
- #hierarchical-rl
- #alfworld
- #webshop
Xiangyuan Xue