← Back to feed
Papers·3일 전

SpecBlock: 블록 반복 드래프터로 추론 속도 8-19% 향상 — EAGLE-3 대비 드래프팅 비용 절반

SpecBlock: 블록 반복 드래프터로 추론 속도 8-19% 향상 — EAGLE-3 대비 드래프팅 비용 절반

SpecBlock은 추측 디코딩에서 드래프터 호출 비용과 경로 의존성 사이의 트레이드오프를 해결한 방법입니다. 블록 단위로 K개의 의존적 토큰을 생성하고, 레이어별 shift와 블록 간 hidden state 전달로 경로 의존성을 유지합니다. EAGLE-3 대비 8-13% 속도 향상을 드래프팅 비용 44-52%로 달성했으며, 배치 시 cost-aware bandit으로 추가 11-19% 개선합니다. 단, 드래프터 co-training이 필요하고, 벤치마크별 최적 블록 크기 K는 별도 튜닝이 필요합니다.

Weijie Shi

Comments

— 첫 댓글을 남겨보세요 —