Papers·4일 전
SG-OPD: 이진 검증기로 교사 신뢰도를 조절한 온-정책 증류 — 경쟁 수준 수학 추론에서 평균 1.98점 향상

Haoran Xu 팀이 온-정책 증류(OPD)의 두 가지 가정(궤적 수준 정렬, 토큰 수준 교사 신뢰도)이 실제로 깨지는 문제를 해결하는 Sign-Gated OPD를 제안했습니다. 이진 검증기를 통해 교사 롤아웃을 선택적으로 혼합하고, 부호 일치 게이트로 증류 업데이트 방향을 조절합니다. 경쟁 수준 수학 추론 벤치마크에서 표준 OPD 대비 샘플당 1.98점, 문제당 7.50점 평균 향상을 보였습니다.
온-정책 증류가 실제 환경에서 깨지는 두 가지 가정을 이진 검증기로 보완한 SG-OPD, 경쟁 수준 수학 추론에서 유의미한 개선을 달성했습니다.
핵심 결론
- 태스크 — 경쟁 수준 수학 추론 벤치마크 (예: AIME, AMC)에서 표준 OPD 대비 성능 향상.
- 수치 — SG-OPD가 표준 OPD보다 샘플당 평균 1.98점, 문제당 평균 7.50점 높은 점수를 기록했습니다.
방법
- 핵심 아이디어 — 이진 검증기(정답 여부 판별)를 교사 신뢰 신호로 활용, 두 가지 세분화에서 OPD를 개선합니다.
- 단계적 교사 샘플링 — 초기 콜드스타트 시 검증기가 승인한 교사 롤아웃만 혼합하여 학생-교사 궤적 정렬 문제 완화.
- 부호 일치 게이트 — 토큰 수준에서 교사와 검증기 방향이 일치하면 증류 업데이트를 외삽, 불일치하면 내삽하여 신뢰도 낮은 토큰의 영향을 줄입니다.
한계·조건
- 벤치마크 — 경쟁 수준 수학 추론에 국한됨; 일반 추론이나 생성 태스크에서의 효과는 추가 검증 필요.
- 검증기 의존성 — 이진 검증기의 정확도가 성능에 직접 영향; 검증기 오류 시 성능 저하 가능.
- 코드 — 논문 내 코드 공개 여부 불명; 재현성을 위해 추가 정보 필요.
편집자 한 줄
온-정책 증류의 실용적 한계를 정교하게 해결한 점이 인상적입니다. 검증기 품질이 병목이 될 수 있어, 다양한 검증기 실험이 후속으로 나오면 좋겠네요.
- #distillation
- #on-policy
- #mathematical-reasoning
- #verifier
- #haoran-xu
Haoran Xu