Papers·1개월 전

SCRL: 서브문제 커리큘럼 RL로 수학 추론 개선 — GRPO 대비 +4.1점

SCRL(Subproblem Curriculum Reinforcement Learning)은 참조 추론 체인에서 검증 가능한 서브문제를 추출해 커리큘럼을 구성, 어려운 문제에서도 부분 진전을 학습 신호로 활용합니다. 서브문제별 보상 정규화를 통해 GRPO 대비 Qwen3-4B-Base에서 평균 정확도 +4.1점, AIME24/25 및 IMO-Bench에서 pass@1 +3.7점을 기록했습니다. 단, 참조 체인이 필요해 재현 비용이 추가되는 점이 한계입니다.

#reinforcement-learning
#math-reasoning
#curriculum-learning
#qwen

Xitai Jiang

원문 보기 →

SCRL: 서브문제 커리큘럼 RL로 수학 추론 개선 — GRPO 대비 +4.1점

Comments