← Back to feed
Papers·3일 전

VIA-SD: 추측 디코딩에 계층형 검증 도입 — 거절률 0.10~0.22 감소, 속도 10~20% 향상

VIA-SD: 추측 디코딩에 계층형 검증 도입 — 거절률 0.10~0.22 감소, 속도 10~20% 향상

ZJU 팀이 추측 디코딩(SD)에서 거절된 토큰을 전체 모델 대신 경량 서브모델(slim-verifier)로 재검증하는 계층형 프레임워크 VIA-SD를 제안했습니다. draft 토큰을 신뢰도에 따라 세 단계(직접 수용, slim-verifier 재생성, 전체 모델 검증)로 처리해 거절률을 0.10~0.22 낮추고, 강력한 SD 기준선 대비 10~20% 속도 향상을 달성했습니다. 기존 SD 프레임워크와 호환되며 학습 절차 수정이 필요 없는 점이 실용적입니다.

ZJU 연구팀이 추측 디코딩의 거절 토큰을 전체 모델 대신 경량 서브모델로 처리하는 계층형 검증 기법 VIA-SD를 공개했습니다.

핵심 결론

  • 거절률네 가지 대표 태스크에서 기존 SD 대비 거절률 0.10~0.22 감소.
  • 속도강력한 SD 기준선 대비 10~20% 추가 속도 향상, 비-drafting 대비 2.5~3배 가속.
  • 호환성기존 SD 프레임워크에 학습 수정 없이 적용 가능.

방법

  • 계층형 검증draft 토큰을 신뢰도에 따라 세 단계로 처리: 고신뢰는 직접 수용, 중간 신뢰는 slim-verifier로 재생성, 저신뢰는 전체 모델 검증.
  • Slim-verifier전체 verifier에서 intra-model routing으로 추출한 경량 서브모델로, 중간 신뢰 토큰을 처리해 전체 모델 호출을 줄입니다.
  • 라우팅draft 토큰의 확률 분포를 기반으로 어느 검증기를 사용할지 결정하는 라우터를 사용.

한계·조건

  • 벤치마크네 가지 태스크(MT-Bench, HumanEval, GSM8K, XSum)에서 평가, 추가 태스크 일반화는 미확인.
  • 모델여러 모델 패밀리에서 실험했지만 특정 아키텍처에 대한 ablation은 제한적.
  • 코드프로젝트 페이지는 공개되었으나 코드 공개 여부는 아직 명확하지 않습니다.

편집자 한 줄

기존 SD의 이진 판단을 다단계로 확장한 점이 직관적이면서도 효과적입니다. 특히 학습 없이 기존 파이프라인에 얹을 수 있어 실용성이 높아 보입니다.

  • #speculative-decoding
  • #inference-optimization
  • #zju
  • #llm
Yuchen Xian
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —