Papers·어제
프린스턴, 희귀 검증 데이터 배분 전략 제안 — RL 강화 교사 → 밀집 증류 → 학생 RL 순서로 78.5% MATH

프린스턴 연구진이 희귀한 검증 가능한 라벨 데이터를 효율적으로 배분하는 원칙을 제시했습니다. sparse sequence-level reward는 탐색이 중요한 강력한 모델(교사)에, dense token-level reward는 행동 압축이 필요한 작은 모델(학생)에 할당하는 것이 핵심입니다. Qwen3-1.7B 학생 기준, RL로 개선된 8B 교사로부터 forward-KL 워밍업 후 OPD로 증류한 모델이 동일 학생에 직접 GRPO를 적용한 경우보다 MATH에서 75.4% → 78.5%로 향상되었고, AIME에서도 가장 좋은 결과를 보였습니다. 단, 이 전략은 교사-학생 구조와 충분한 컴퓨팅 자원이 전제되어야 합니다.
- #rlhf
- #knowledge-distillation
- #grpo
- #princeton
- #math-reasoning
Princeton University