Papers·1주 전
StepPO: 에이전트 RL을 위한 스텝 단위 정책 최적화 — 멀티홉 QA·논문 검색·텍스트 게임에서 일관된 개선

기존 LLM RL이 토큰 단위 최적화를 하는 반면, 에이전트는 스텝 단위로 의사결정한다는 불일치를 해결하기 위해 StepPO를 제안합니다. 상호작용 스텝을 기본 단위로 하는 MDP 재정의와 스텝 수준의 credit assignment를 도입했고, 멀티홉 QA, 학술 논문 검색, 텍스트 게임 태스크에서 다양한 RL 알고리즘 대비 일관된 성능 향상을 보였습니다. 다만 실험이 비교적 작은 스케일(7B 모델, 제한된 환경)에서 이루어져 확장성 검증이 더 필요해 보입니다.
LLM 에이전트가 스텝 단위로 의사결정을 내리는데, 기존 RL은 토큰 단위로 최적화하는 granularity mismatch를 StepPO가 해결합니다.
핵심 결론
- 성능 — 멀티홉 QA(HotpotQA), 논문 검색(SearchQA), 텍스트 게임(ALFWorld)에서 PPO, Reinforce, GRPO 등 기존 RL 대비 평균 5~15% 성능 향상.
- 모델 — 실험은 Llama 3.1 8B 기반, 환경은 각각 2~6 스텝의 제한된 에이전트 루프.
방법
- 스텝 MDP — 토큰 단위 MDP를 스텝(observation-action pair) 단위로 재정의해 에이전트의 자연스러운 의사결정 단위와 맞춤.
- 스텝 credit assignment — 각 스텝의 보상을 별도로 계산하지 않고, 전체 에피소드 보상을 스텝별로 배분하는 방식으로 정책 경사 계산.
- 기존 PPO 프레임워크에 스텝 단위 advantage 계산만 추가하면 되므로 구현 부담이 크지 않은 점이 실용적입니다.
한계·조건
- 환경 — 모든 태스크가 2~6 스텝의 짧은 에피소드로 제한되어, 장기 에이전트 시나리오(10+ 스텝)에서의 효과는 검증되지 않음.
- 스케일 — 7B 모델 단일 실험으로, 70B 이상 또는 MoE 모델에서도 동일한 추세가 유지될지는 미지수.
- 코드 — 논문에서 코드 공개 예정이라고 밝히고 있으나 현재는 공개되지 않음.
편집자 한 줄
에이전트 RL의 granularity 문제를 직관적으로 짚은 점이 좋습니다. 다만 실험 환경이 제한적이라 'step-centric'이 항상 유리하다고 단정하기는 이르네요.
- #agentic-rl
- #step-level-mdp
- #policy-optimization
- #llm-agents
Daoyu Wang