Papers·2일 전
CEPO: 강화 학습에서 추론 토큰에 정밀한 보상 신호를 할당하는 방법 — 2B·4B 규모에서 GRPO 대비 각각 2.3%p·3.1%p 향상

MBZUAI 팀이 제안한 CEPO는 RLVR 환경에서 정답과 오답을 동시에 고려해 각 토큰이 진정한 추론 단계인지 문법적 채움인지 구분합니다. 기존 GRPO 대비 2B·4B 규모의 다섯 가지 수리 추론 벤치마크 평균 정확도를 각각 43.43%·60.56%로 끌어올렸으며, 오답 교사는 이미 수집된 rejected rollout을 활용해 추가 샘플링 비용이 없습니다. 단, 이 방법은 보상 신호가 희박한 비-추론 태스크에서는 효과가 제한될 수 있습니다.
- #rlvr
- #reinforcement-learning
- #reasoning
- #mbzuai
- #cepo
Mohamed Bin Zayed University of Artificial Intelligence