Papers·2일 전
On-policy distillation, 수학 추론에서 불안정 — UIUC 연구진이 세 가지 실패 메커니즘 규명

UIUC 연구진이 on-policy distillation(OPD)과 on-policy self-distillation(OPSD)의 실패 조건을 분석했습니다. OPD는 수학 추론에서 teacher 선택과 loss 공식에 민감했고, OPSD는 instance-specific privileged information이 부재할 때 실패했습니다. 세 가지 실패 메커니즘으로 student-generated prefix로 인한 분포 불일치, biased TopK reverse-KL gradient로 인한 최적화 불안정, OPSD에서 PI-free 정책 학습의 한계를 지적했습니다. stop-gradient TopK, RLVR-adapted teacher, SFT-stabilized student로 완화 가능합니다.
- #distillation
- #on-policy
- #math-reasoning
- #uiuc
University of Illinois at Urbana-Champaign