Papers·1개월 전

Draft-OPD, 추측 디코딩 드래프터 학습을 on-policy distillation 으로 — EAGLE-3 대비 23% 향상

Draft-OPD는 추측 디코딩에서 드래프터 모델을 on-policy distillation 방식으로 학습시켜 EAGLE-3 대비 23%, DFlash 대비 13% 더 높은 속도 향상을 달성했습니다. 기존 SFT 방식은 고정된 타겟 궤적으로 학습해 오프라인-추론 불일치가 발생하는데, Draft-OPD는 타겟-어시스트 롤아웃으로 안정적인 연속 생성을 하고 검증 오류 위치에서 재생하여 드래프터가 자신의 정책으로 생성한 상태에서 피드백을 받도록 설계했습니다. thinking 모델에서 5배 이상의 무손실 가속을 보였습니다.

추측 디코딩의 드래프터 학습을 on-policy distillation 으로 전환해 EAGLE-3 대비 23% 가속을 달성한 방법입니다.

핵심 결론

가속 — thinking 모델에서 5배 이상 무손실 가속, EAGLE-3 대비 23%, DFlash 대비 13% 향상.
벤치 — 다양한 태스크(추론, 코딩, 수학)에서 일관된 개선을 확인했습니다.

방법

문제 — SFT 기반 드래프터는 고정된 타겟 궤적으로 학습해 추론 시 자신의 정책으로 생성한 블록에서 성능이 떨어지는 offline-to-inference mismatch 가 발생합니다.
해결 — Draft-OPD는 타겟-어시스트 롤아웃으로 안정적인 연속을 생성하고, 검증에서 거절된 오류 위치를 재생(replay)하여 드래프터가 자신의 정책으로 생성한 상태에서 타겟 피드백을 받도록 합니다.
이를 통해 수용된 제안과 거절된 제안 모두에서 학습이 가능해져, 드래프터가 실제로 실수하는 지점에 집중적으로 훈련됩니다.

한계·조건

리소스 — 타겟-어시스트 롤아웃 과정에서 추가적인 타겟 모델 추론이 필요해 학습 비용이 SFT보다 높습니다.
코드 — 현재 코드는 공개되지 않았으며, 논문에서도 재현성 관련 세부 설정이 일부 생략되었습니다.

편집자 한 줄

on-policy distillation 을 추측 디코딩 드래프터 학습에 적용한 아이디어는 간단하면서도 효과적입니다. 다만 학습 비용 증가분 대비 실질 이득이 어느 정도인지 추가 분석이 필요해 보입니다.

#speculative-decoding
#distillation
#eagle3
#dflash
#llm-inference

Haodi Lei

원문 보기 →

Draft-OPD, 추측 디코딩 드래프터 학습을 on-policy distillation 으로 — EAGLE-3 대비 23% 향상

핵심 결론

방법

한계·조건

Comments