Papers·1개월 전

TS-DFM: 흐름 정합 증류에서 궤적이 병목 — 170M 모델 8스텝으로 1024스텝 교사보다 PPL 32% 낮춰

Apple 연구진이 discrete flow matching 증류에서 성능 병목이 학생 모델 용량이 아니라 훈련 궤적 자체에 있음을 지적하고, 각 중간 지점에서 경량 에너지 컴퍼스로 후보를 평가해 궤적을 정제하는 TS-DFM을 제안했습니다. 170M 파라미터 언어 모델링에서 8스텝 학생이 1024스텝 교사보다 perplexity를 32% 낮추면서 128배 빠른 추론을 달성했고, 6배 많은 데이터나 5배 큰 모델을 쓴 baseline보다도 좋은 성능을 냈습니다. 단, 이 결과는 perplexity 기준이며 실제 생성 품질(GPT 평가 등)과의 괴리는 추가 검증이 필요합니다.

#discrete-flow-matching
#distillation
#apple
#language-modeling

Apple

원문 보기 →

TS-DFM: 흐름 정합 증류에서 궤적이 병목 — 170M 모델 8스텝으로 1024스텝 교사보다 PPL 32% 낮춰

Comments