Papers·1개월 전

Graft: 추론 가속을 위한 가지치기-검색 보상 프레임워크 — EAGLE-3 대비 최대 21.8% 속도 향상

Graft는 speculative decoding에서 dense draft tree의 VRAM/계산 오버헤드를 줄이기 위해 가지치기(pruning)로 확보한 예산을 검색(retrieval)에 재할당하는 훈련 불필요 프레임워크입니다. 가지치기로 제거된 토큰 위치를 검색된 고예측 토큰으로 채워(graft) acceptance rate 손실을 보상하며, Qwen3-235B에서 EAGLE-3 대비 평균 21.8%, 최대 5.41배 속도 향상을 달성했습니다. 단, DFlash-style 블록 드래프팅에 대한 확장은 초기 탐색 수준입니다.

#speculative-decoding
#inference-acceleration
#pruning
#retrieval
#qwen

Yuhao Shen

원문 보기 →

Graft: 추론 가속을 위한 가지치기-검색 보상 프레임워크 — EAGLE-3 대비 최대 21.8% 속도 향상

Comments