Papers·1개월 전

Mila, on-policy distillation 의 구조적 문제 'prefix failure' 식별 — TRD 로 trajectory 수정, 정확도·커버리지 개선

Mila 팀이 on-policy distillation(OPD)에서 발생하는 구조적 문제인 'prefix failure'를 식별하고, 이를 해결하는 Trajectory-Refined Distillation(TRD)을 제안했습니다. TRD는 토큰 수준 손실 개입 대신 궤적 수준에서 학생 모델의 rollout을 교정하며, 다양한 벤치마크와 모델 규모에서 기존 방법보다 일관된 성능 향상을 보였습니다. 코드는 공개되었습니다.

Mila 팀이 on-policy distillation의 구조적 결함인 prefix failure를 규명하고, 궤적 수준 교정 방법 TRD를 제안했습니다.

핵심 결론

문제 — OPD에서 prefix failure로 인해 이중 모드 교사 혼합과 파편화된 그래디언트가 발생, 기존 토큰 수준 손실 절단/재가중으로 해결 불가.
해결 — TRD는 교사 안내 하에 학생 rollout을 궤적 수준에서 교정하여 prefix failure를 원천 차단.
성능 — 다양한 벤치마크와 모델 규모에서 단일 시도 정확도 및 추론 커버리지에서 기존 방법 대비 일관된 개선.

방법

핵심 아이디어 — 토큰 수준 손실 개입 대신, 교사 안내 하에 학생의 전체 rollout을 수정하는 궤적 수준 교정.
적용 범위 — OPD뿐 아니라 on-policy self-distillation(OPSD)에도 적용 가능, 파라미터 공유 변형에서도 효과.
탐색 향상 — 원래 rollout이 올바른 경우에도 교사 안내로 대체 유도 경로를 노출시켜 탐색 개선.

한계·조건

벤치마크 — 다양한 벤치마크에서 평가되었으나, 특정 도메인(예: 코드 생성)에서의 일반화는 추가 검증 필요.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

prefix failure 개념은 distillation 연구에서 새로운 통찰을 제공하며, TRD의 궤적 수정 접근은 실용적입니다.

#distillation
#llm
#mila
#prefix-failure
#trd

Mila – Quebec Artificial Intelligence Institute

원문 보기 →

Mila, on-policy distillation 의 구조적 문제 'prefix failure' 식별 — TRD 로 trajectory 수정, 정확도·커버리지 개선

핵심 결론

방법

한계·조건

Comments