Papers·2일 전
Layer 6 AI, GRPO 붕괴 문제 해결한 WAPO — 수학 추론 벤치에서 GRPO 대비 안정적 수렴

Layer 6 AI 팀이 GRPO 방식의 정책 붕괴 현상을 분석하고, 양성 어드밴티지만 업데이트하는 WAPO(Winner Advantage Policy Optimization)를 제안했습니다. 수학 추론(MATH, GSM8K)과 다중 홉 QA(2WikiMultihopQA)에서 GRPO 대비 훈련 안정성이 개선되었으며, 동일하거나 더 나은 성능을 보였습니다. 코드는 공개되었습니다.
Layer 6 AI 팀이 GRPO의 정책 붕괴 원인을 토큰 수준 그래디언트 동역학으로 분석하고, 이를 해결하는 WAPO를 제안했습니다.
핵심 결론
- 태스크 — 수학 추론(MATH, GSM8K) 및 다중 홉 QA(2WikiMultihopQA)에서 평가.
- 성능 — GRPO 대비 훈련 안정성 향상, 동일하거나 더 나은 정확도 달성.
- 모델 — Llama 3.2 3B, Qwen 2.5 7B 등 여러 모델 패밀리에서 일관된 경향.
방법
- 분석 — GRPO의 붕괴는 어드밴티지 부호와 현재 정책 하의 토큰 분포에 따라 결정됨을 보임.
- WAPO — 양성 어드밴티지를 가진 완성(completion)만 업데이트하는 간단한 온라인 클리핑 정책 그래디언트 목적함수.
- 기존 GRPO와 달리 음성 어드밴티지 샘플을 무시함으로써 정책이 급격히 변화하는 것을 방지합니다.
한계·조건
- 환경 — 벤치마크는 수학 및 QA 도메인에 한정, 일반적인 추론 과제로의 일반화는 추가 검증 필요.
- 코드 — GitHub에 공개 완료 (https://github.com/layer6ai-labs/wapo).
편집자 한 줄
분석이 토큰 수준 그래디언트까지 내려간 점이 인상적이며, 단순한 수정으로 안정성을 확보한 점이 실용적입니다.
- #rlvr
- #grpo
- #wapo
- #reasoning
- #layer6
Layer 6 AI