Papers·5일 전
Draft-OPD, 추측 디코딩 드래프터 학습을 on-policy distillation 으로 — EAGLE-3 대비 23% 향상

Draft-OPD는 추측 디코딩에서 드래프터 모델을 on-policy distillation 방식으로 학습시켜 EAGLE-3 대비 23%, DFlash 대비 13% 더 높은 속도 향상을 달성했습니다. 기존 SFT 방식은 고정된 타겟 궤적으로 학습해 오프라인-추론 불일치가 발생하는데, Draft-OPD는 타겟-어시스트 롤아웃으로 안정적인 연속 생성을 하고 검증 오류 위치에서 재생하여 드래프터가 자신의 정책으로 생성한 상태에서 피드백을 받도록 설계했습니다. thinking 모델에서 5배 이상의 무손실 가속을 보였습니다.
추측 디코딩의 드래프터 학습을 on-policy distillation 으로 전환해 EAGLE-3 대비 23% 가속을 달성한 방법입니다.
핵심 결론
- 가속 — thinking 모델에서 5배 이상 무손실 가속, EAGLE-3 대비 23%, DFlash 대비 13% 향상.
- 벤치 — 다양한 태스크(추론, 코딩, 수학)에서 일관된 개선을 확인했습니다.
방법
- 문제 — SFT 기반 드래프터는 고정된 타겟 궤적으로 학습해 추론 시 자신의 정책으로 생성한 블록에서 성능이 떨어지는 offline-to-inference mismatch 가 발생합니다.
- 해결 — Draft-OPD는 타겟-어시스트 롤아웃으로 안정적인 연속을 생성하고, 검증에서 거절된 오류 위치를 재생(replay)하여 드래프터가 자신의 정책으로 생성한 상태에서 타겟 피드백을 받도록 합니다.
- 이를 통해 수용된 제안과 거절된 제안 모두에서 학습이 가능해져, 드래프터가 실제로 실수하는 지점에 집중적으로 훈련됩니다.
한계·조건
- 리소스 — 타겟-어시스트 롤아웃 과정에서 추가적인 타겟 모델 추론이 필요해 학습 비용이 SFT보다 높습니다.
- 코드 — 현재 코드는 공개되지 않았으며, 논문에서도 재현성 관련 세부 설정이 일부 생략되었습니다.
편집자 한 줄
on-policy distillation 을 추측 디코딩 드래프터 학습에 적용한 아이디어는 간단하면서도 효과적입니다. 다만 학습 비용 증가분 대비 실질 이득이 어느 정도인지 추가 분석이 필요해 보입니다.
- #speculative-decoding
- #distillation
- #eagle3
- #dflash
- #llm-inference
Haodi Lei