Papers·1주 전

서울대, On-Policy Distillation 안정화 기법 vOPD 제안 — 수학·과학 추론 벤치마크에서 일관된 성능 향상

서울대 연구팀이 On-Policy Distillation(OPD)을 강화학습의 policy-gradient로 재해석하고, control variate baseline(가치 함수)을 도입해 분산을 줄인 vOPD를 제안했습니다. OPD의 가치 함수가 teacher-student 간 per-token negative reverse KL divergence로 닫힌 형태를 가지며, 추가 critic 없이 기존 forward pass에서 바로 계산 가능하다는 점이 핵심입니다. vOPD는 단일 샘플 추정기의 효율성을 유지하면서도 분산을 낮춰, 수학·과학 추론 벤치마크에서 vanilla OPD를 일관되게 능가하고 고비용 full-vocabulary baseline과 동등한 성능을 냅니다. 단, top-k 근사 baseline을 사용해도 성능 저하가 없다는 실험 결과는 흥미로운 포인트입니다.

#on-policy-distillation
#rl
#variance-reduction
#seoul-national-university

Seoul National University

원문 보기 →

서울대, On-Policy Distillation 안정화 기법 vOPD 제안 — 수학·과학 추론 벤치마크에서 일관된 성능 향상

Comments