Papers·4일 전

ByteDance, LLM 추론 자기 증류에서 교사 노출을 학습 가능한 변수로 제어하는 ATESD 제안 — AIME 24/25, HMMT 25에서 +0.95~2.33점 향상

ByteDance 팀이 LLM 추론을 위한 자기 증류(self-distillation)에서 교사(teacher)가 전체 참조 추론을 보는 기존 방식을 문제 삼고, 교사 노출을 학습 가능한 제어 변수로 만드는 ATESD(Adaptive Teacher Exposure for Self-Distillation)를 제안했습니다. 경량 Beta-정책 컨트롤러가 훈련 상태 통계에 기반해 노출 비율을 동적으로 결정하며, 할인된 학습 진행 보상(discounted learning-progress reward)으로 지연된 신용 할당 문제를 해결합니다. Qwen3-1.7B/4B/8B 모델에서 AIME 24, AIME 25, HMMT 25 벤치마크 실험 결과, 기존 OPSD 대비 Average@12 기준 +0.95~+2.33점의 일관된 성능 향상을 보였습니다. 다만 이 방법은 온-폴리시(on-policy) 증류 환경에서 설계되어 오프-폴리시 방식으로의 일반화는 추가 검증이 필요합니다.

#self-distillation
#reasoning
#llm
#bytedance
#atesd

ByteDance

원문 보기 →

ByteDance, LLM 추론 자기 증류에서 교사 노출을 학습 가능한 변수로 제어하는 ATESD 제안 — AIME 24/25, HMMT 25에서 +0.95~2.33점 향상

Comments