Papers·2일 전
Apple, 토큰 단위 증류 진단 프레임워크 공개 — 이상적 그래디언트 정렬로 조건별 최적 증류 전략 분석

Apple 연구진이 추론 모델의 on-policy 증류에서 토큰·질문·교사별로 증류 신호의 유용성을 사전 진단하는 학습 없는 프레임워크를 제안했습니다. 이상적 그래디언트를 정의하고 targeted-rollout으로 근사한 뒤, 증류 그래디언트와의 코사인 유사도(정렬 점수)를 측정해 정답보다 오답 롤아웃에서 증류가 더 유용하며, 최적 증류 맥락이 학생 모델 용량과 태스크에 따라 달라짐을 보였습니다. 단일 보편적 설정이 존재하지 않는다는 점이 실용적 한계입니다.
- #distillation
- #reasoning
- #apple
- #gradient-alignment
- #diagnostic
Apple