Papers·2일 전
A²TGPO: 에이전트 LLM을 위한 턴-레벨 강화학습 — 정보 이득 기반 보상 정규화와 적응형 클리핑

Tencent 연구팀이 에이전트 LLM의 다중 턴 상호작용에서 턴별 기여도를 평가하는 새로운 강화학습 방법 A²TGPO를 제안했습니다. 기존의 sparse한 궤적 보상이나 외부 프로세스 보상 모델 없이, 정책의 정보 이득(IG)을 내재적 신호로 활용하되, 턴-그룹 정규화, 분산-재조정 할인 누적, 적응형 턴-레벨 클리핑을 도입해 IG 신호의 정규화·누적·소비 방식을 재설계했습니다. 실험은 아직 공개되지 않았으나, ToolBench 등 에이전트 벤치마크에서 기존 방법 대비 개선이 기대됩니다.
- #reinforcement-learning
- #llm-agents
- #credit-assignment
- #tencent
Tencent