Papers·1주 전
CIPO: RLVR 실패 궤적을 교정 학습으로 전환 — 수학·코드 11개 벤치마크에서 일관 개선

RLVR(Reinforcement Learning with Verifiable Rewards)은 LLM 추론 능력 향상에 효과적이지만, 이진 보상과 약한 신용 할당으로 실패 궤적의 정보를 충분히 활용하지 못합니다. CIPO는 온폴리시 실패 궤적을 교정 샘플로 변환해 표준 RLVR 목표와 함께 최적화함으로써, 모델의 자기 교정 능력을 직접 향상시킵니다. 수학 및 코드 생성 11개 벤치마크에서 강력한 기준선을 일관되게 능가했으며, pass@K 이득이 더 커 단순한 확률 재분배가 아닌 본질적 추론 능력 개선임을 시사합니다.
- #rlvr
- #reinforcement-learning
- #reasoning
- #self-correction
- #llm
Mengjie Ren