Papers·1개월 전

추론 추적 압축으로 지식 증류 효율 7.6배 향상 — 정확도는 최대 96% 유지

UCLouvain 연구팀이 추론 모델의 chain-of-thought 추적을 지식 증류 전에 압축하는 기법을 제안했습니다. Qwen3.5-397B-A17B와 gpt-oss-120B 교사로 생성한 28만 개 추적을 instruction-tuned 모델로 8.6~21.0% 길이로 줄인 결과, 훈련 토큰을 12~30%로 절감하고 훈련 속도를 2.0~7.6배 높였습니다. 다만 원본 추적이 모든 규모에서 가장 높은 정확도를 유지했으며, 압축은 정확도-효율 트레이드오프를 제공합니다.

추론 모델의 긴 chain-of-thought 추적을 증류 전에 압축하면 훈련 효율이 크게 개선되지만, 정확도는 원본에 미치지 못하는 트레이드오프가 존재합니다.

핵심 결론

효율 — 압축된 추적으로 훈련 시 토큰 사용량 12~30% 감소, 훈련 속도 2.0~7.6배 향상, 추론 출력 길이 3~19배 단축.
정확도 — 원본 추적 대비 최대 96% 정확도 유지, 특히 0.8B 규모 LoRA에서 압축 추적이 원본과의 격차를 좁힘.

방법

압축 파이프라인 — Qwen3.5-397B-A17B와 gpt-oss-120B 교사로 각각 약 283k 정답 추적 생성 후, instruction-tuned 모델로 문자 길이를 8.6~21.0%로 압축.
실험 설계 — 48-run 메인 그리드와 7가지 Qwen 교사 절단 abation 수행, 길이 매칭 원본 절단 대비 압축의 이점 확인.

한계·조건

트레이드오프 — 압축은 정확도-효율 트레이드오프를 제공할 뿐, 원본 추적을 능가하지는 못함.
재현성 — 코드 및 데이터 공개 여부는 명시되지 않음; 실험은 특정 교사 모델과 48-run 설정에 국한.

편집자 한 줄

추론 추적 압축이 증류 효율을 크게 높이지만, 정확도 손실이 없는 '공짜 점심'은 아니라는 점을 명확히 보여준 연구입니다.

#knowledge-distillation
#chain-of-thought
#compression
#uclouvain

Université Catholique de Louvain

원문 보기 →

추론 추적 압축으로 지식 증류 효율 7.6배 향상 — 정확도는 최대 96% 유지

핵심 결론

방법

한계·조건

Comments