← Back to feed
Papers·어제

SCRL: 서브문제 커리큘럼 RL로 수학 추론 개선 — GRPO 대비 +4.1점

SCRL: 서브문제 커리큘럼 RL로 수학 추론 개선 — GRPO 대비 +4.1점

SCRL(Subproblem Curriculum Reinforcement Learning)은 참조 추론 체인에서 검증 가능한 서브문제를 추출해 커리큘럼을 구성, 어려운 문제에서도 부분 진전을 학습 신호로 활용합니다. 서브문제별 보상 정규화를 통해 GRPO 대비 Qwen3-4B-Base에서 평균 정확도 +4.1점, AIME24/25 및 IMO-Bench에서 pass@1 +3.7점을 기록했습니다. 단, 참조 체인이 필요해 재현 비용이 추가되는 점이 한계입니다.

  • #reinforcement-learning
  • #math-reasoning
  • #curriculum-learning
  • #qwen
Xitai Jiang

Comments

— 첫 댓글을 남겨보세요 —