Papers·1개월 전

Explore-then-Act: 에이전트의 탐색 능력을 공식화하고 강화하는 패러다임

Ziang Ye 연구팀은 LLM 기반 에이전트가 낯선 환경에서 사전 지식에 과도하게 의존하는 '조기 활용( premature exploitation)' 문제를 해결하기 위해, 탐색 능력을 정량화하는 Exploration Checkpoint Coverage 지표를 제안하고, 이를 최적화하는 훈련 전략을 개발했습니다. 태스크 실행과 탐색 롤아웃을 분리하여 각각 검증 가능한 보상으로 학습시키는 Explore-then-Act 패러다임을 통해, 에이전트가 먼저 상호작용 예산으로 환경 정보를 수집한 후 태스크를 수행하도록 설계했습니다. 실험 결과, 체계적인 탐색 학습이 일반화 가능한 에이전트 구축에 필수적임을 입증했습니다.

#exploration
#reinforcement-learning
#llm-agent
#generalization

Ziang Ye

원문 보기 →

Explore-then-Act: 에이전트의 탐색 능력을 공식화하고 강화하는 패러다임

Comments