Papers·1개월 전

VIA-SD: 추측 디코딩에 계층형 검증 도입 — 거절률 0.10~0.22 감소, 속도 10~20% 향상

ZJU 팀이 추측 디코딩(SD)에서 거절된 토큰을 전체 모델 대신 경량 서브모델(slim-verifier)로 재검증하는 계층형 프레임워크 VIA-SD를 제안했습니다. draft 토큰을 신뢰도에 따라 세 단계(직접 수용, slim-verifier 재생성, 전체 모델 검증)로 처리해 거절률을 0.10~0.22 낮추고, 강력한 SD 기준선 대비 10~20% 속도 향상을 달성했습니다. 기존 SD 프레임워크와 호환되며 학습 절차 수정이 필요 없는 점이 실용적입니다.

ZJU 연구팀이 추측 디코딩의 거절 토큰을 전체 모델 대신 경량 서브모델로 처리하는 계층형 검증 기법 VIA-SD를 공개했습니다.

핵심 결론

거절률 — 네 가지 대표 태스크에서 기존 SD 대비 거절률 0.10~0.22 감소.
속도 — 강력한 SD 기준선 대비 10~20% 추가 속도 향상, 비-drafting 대비 2.5~3배 가속.
호환성 — 기존 SD 프레임워크에 학습 수정 없이 적용 가능.

방법

계층형 검증 — draft 토큰을 신뢰도에 따라 세 단계로 처리: 고신뢰는 직접 수용, 중간 신뢰는 slim-verifier로 재생성, 저신뢰는 전체 모델 검증.
Slim-verifier — 전체 verifier에서 intra-model routing으로 추출한 경량 서브모델로, 중간 신뢰 토큰을 처리해 전체 모델 호출을 줄입니다.
라우팅 — draft 토큰의 확률 분포를 기반으로 어느 검증기를 사용할지 결정하는 라우터를 사용.

한계·조건

벤치마크 — 네 가지 태스크(MT-Bench, HumanEval, GSM8K, XSum)에서 평가, 추가 태스크 일반화는 미확인.
모델 — 여러 모델 패밀리에서 실험했지만 특정 아키텍처에 대한 ablation은 제한적.
코드 — 프로젝트 페이지는 공개되었으나 코드 공개 여부는 아직 명확하지 않습니다.

편집자 한 줄

기존 SD의 이진 판단을 다단계로 확장한 점이 직관적이면서도 효과적입니다. 특히 학습 없이 기존 파이프라인에 얹을 수 있어 실용성이 높아 보입니다.

#speculative-decoding
#inference-optimization
#zju
#llm

Yuchen Xian

원문 보기 →

VIA-SD: 추측 디코딩에 계층형 검증 도입 — 거절률 0.10~0.22 감소, 속도 10~20% 향상

핵심 결론

방법

한계·조건

Comments