← Back to feed
Papers·2일 전

Mila, on-policy distillation 의 구조적 문제 'prefix failure' 식별 — TRD 로 trajectory 수정, 정확도·커버리지 개선

Mila, on-policy distillation 의 구조적 문제 'prefix failure' 식별 — TRD 로 trajectory 수정, 정확도·커버리지 개선

Mila 팀이 on-policy distillation(OPD)에서 발생하는 구조적 문제인 'prefix failure'를 식별하고, 이를 해결하는 Trajectory-Refined Distillation(TRD)을 제안했습니다. TRD는 토큰 수준 손실 개입 대신 궤적 수준에서 학생 모델의 rollout을 교정하며, 다양한 벤치마크와 모델 규모에서 기존 방법보다 일관된 성능 향상을 보였습니다. 코드는 공개되었습니다.

Mila 팀이 on-policy distillation의 구조적 결함인 prefix failure를 규명하고, 궤적 수준 교정 방법 TRD를 제안했습니다.

핵심 결론

  • 문제OPD에서 prefix failure로 인해 이중 모드 교사 혼합과 파편화된 그래디언트가 발생, 기존 토큰 수준 손실 절단/재가중으로 해결 불가.
  • 해결TRD는 교사 안내 하에 학생 rollout을 궤적 수준에서 교정하여 prefix failure를 원천 차단.
  • 성능다양한 벤치마크와 모델 규모에서 단일 시도 정확도 및 추론 커버리지에서 기존 방법 대비 일관된 개선.

방법

  • 핵심 아이디어토큰 수준 손실 개입 대신, 교사 안내 하에 학생의 전체 rollout을 수정하는 궤적 수준 교정.
  • 적용 범위OPD뿐 아니라 on-policy self-distillation(OPSD)에도 적용 가능, 파라미터 공유 변형에서도 효과.
  • 탐색 향상원래 rollout이 올바른 경우에도 교사 안내로 대체 유도 경로를 노출시켜 탐색 개선.

한계·조건

  • 벤치마크다양한 벤치마크에서 평가되었으나, 특정 도메인(예: 코드 생성)에서의 일반화는 추가 검증 필요.
  • 코드GitHub에 공개되어 재현 가능.

편집자 한 줄

prefix failure 개념은 distillation 연구에서 새로운 통찰을 제공하며, TRD의 궤적 수정 접근은 실용적입니다.

  • #distillation
  • #llm
  • #mila
  • #prefix-failure
  • #trd
Mila – Quebec Artificial Intelligence Institute
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —