Papers·2개월 전

CoRD: 다중 교사 디코딩으로 Long-CoT 추론 증류 — 학생 모델 성능 교사 수준 근접

CoRD는 여러 이종 대형 추론 모델(LRM)이 협력해 step-wise로 추론 궤적을 합성하는 프레임워크로, 예측 perplexity 기반 점수와 beam search를 활용해 고품질 Long-CoT 데이터를 생성합니다. 기존 사후 선별 방식보다 샘플링 효율이 높고, 학생 모델이 교사 수준에 가까운 성능을 적은 수의 구조화된 지도 신호로 달성했습니다. 코드와 데이터셋은 공개되었으나, 실험은 특정 벤치마크에 국한되어 일반화 검증이 더 필요해 보입니다.

#long-cot
#distillation
#multi-teacher
#reasoning
#lrm

Data Intelligence System Lab

원문 보기 →

CoRD: 다중 교사 디코딩으로 Long-CoT 추론 증류 — 학생 모델 성능 교사 수준 근접

Comments