← Back to feed
Papers·2일 전

Graft: 추론 가속을 위한 가지치기-검색 보상 프레임워크 — EAGLE-3 대비 최대 21.8% 속도 향상

Graft: 추론 가속을 위한 가지치기-검색 보상 프레임워크 — EAGLE-3 대비 최대 21.8% 속도 향상

Graft는 speculative decoding에서 dense draft tree의 VRAM/계산 오버헤드를 줄이기 위해 가지치기(pruning)로 확보한 예산을 검색(retrieval)에 재할당하는 훈련 불필요 프레임워크입니다. 가지치기로 제거된 토큰 위치를 검색된 고예측 토큰으로 채워(graft) acceptance rate 손실을 보상하며, Qwen3-235B에서 EAGLE-3 대비 평균 21.8%, 최대 5.41배 속도 향상을 달성했습니다. 단, DFlash-style 블록 드래프팅에 대한 확장은 초기 탐색 수준입니다.

  • #speculative-decoding
  • #inference-acceleration
  • #pruning
  • #retrieval
  • #qwen
Yuhao Shen

Comments

— 첫 댓글을 남겨보세요 —