Papers·1주 전
AntiSD: 자기-증류의 역전 — 수학 추론에서 11.5% 정확도 향상

기존 자기-증류가 수학 추론에서 일관된 성능 향상을 보이지 못하는 이유를 점별 상호정보량(PMI) 분석으로 밝히고, 이를 역전시킨 AntiSD를 제안합니다. AntiSD는 학생과 교사 간의 발산을 최소화 대신 최대화하며, 엔트로피 기반 게이트로 교사 붕괴 시 항을 비활성화합니다. 4B~30B 모델에서 GRPO 기준선 정확도를 2~10배 적은 학습 스텝으로 달성하고 최대 11.5% 정확도를 개선했지만, 코드 미공개로 재현성에 한계가 있습니다.
- #self-distillation
- #math-reasoning
- #anti-sd
- #entropy-gate
rednote-hilab