Papers·1개월 전

AEM: 보상 신호 없이 탐색-활용 균형을 조절하는 에이전트 RL — ALFWorld, WebShop, SWE-bench에서 +1.4%

Baidu 연구진이 에이전트 강화학습에서 별도의 보상 모델 없이 엔트로피 동역학을 활용해 탐색과 활용을 자연스럽게 전환하는 AEM을 제안했습니다. 토큰 수준이 아닌 응답 수준에서 엔트로피 변화를 분석해 샘플링 노이즈를 줄이고, 어드밴티지를 재조정하는 방식입니다. ALFWorld, WebShop, SWE-bench-Verified에서 1.5B~32B 모델로 실험한 결과, 기존 RL 대비 일관된 성능 향상을 보였으며 SWE-bench에서는 SOTA 프레임워크에 통합 시 +1.4% 개선을 기록했습니다. 다만 실험은 모두 오픈소스 벤치마크에 국한되었고, 실제 환경에서의 일반화는 추가 검증이 필요합니다.

#reinforcement-learning
#llm-agents
#credit-assignment
#baidu
#entropy

BAIDU

원문 보기 →

AEM: 보상 신호 없이 탐색-활용 균형을 조절하는 에이전트 RL — ALFWorld, WebShop, SWE-bench에서 +1.4%

Comments