Papers·1주 전
APPO: 에이전트 RL의 분기와 신용 할당을 토큰 단위로 세분화 — 13개 벤치마크 평균 4점 향상

기존 agentic RL은 도구 호출이나 고정 워크플로우 단위로 신용을 할당해 중간 결정의 영향을 파악하기 어려웠습니다. APPO는 토큰 불확실성과 정책 기반 우도 이득을 결합한 Branching Score로 분기 지점을 선정하고, 절차 수준의 advantage scaling으로 신용을 분배합니다. 13개 벤치마크에서 강력한 agentic RL baseline 대비 평균 4점 개선, 도구 호출 효율과 행동 해석 가능성은 유지했습니다.
APPO는 에이전트 RL의 분기(branching)와 신용 할당(credit assignment)을 토큰 단위로 세분화해 13개 벤치마크에서 평균 4점 향상을 달성했습니다.
핵심 결론
- 태스크 — 멀티턴 도구 사용 에이전트의 RL 학습.
- 개선폭 — 13개 벤치마크에서 기존 agentic RL baseline 대비 평균 4점 향상.
- 효율 — 도구 호출 횟수는 유지되며 행동 해석 가능성도 그대로.
방법
- 분기 지점 — Branching Score = token uncertainty + policy-induced likelihood gain. 높은 엔트로피지만 영향 없는 위치는 필터링.
- 신용 할당 — 절차 수준 advantage scaling (procedure-level advantage scaling)으로 branched rollout 간 신용 분배.
- 직관 — 영향력 있는 결정 지점이 도구 호출뿐 아니라 시퀀스 전반에 분포한다는 분석에 기반.
한계·조건
- 벤치마크 — 13개 벤치마크는 주로 웹 내비게이션, API 사용 등 특정 도메인에 집중.
- 재현성 — 코드 공개 여부는 abstract에 명시되지 않음.
- 계산량 — Branching Score 계산을 위해 추가적인 rollout이 필요해 학습 비용이 증가할 수 있음.
편집자 한 줄
분기 지점을 토큰 단위로 세분화한 점은 직관적이면서도 실용적인 접근입니다. 다만 추가 rollout 비용이 어느 정도인지 확인해볼 필요가 있네요.
- #agentic-rl
- #reinforcement-learning
- #credit-assignment
- #llm-agents
- #appo
Xucong Wang