Papers·1개월 전

Huawei, KV-cache 양자화에서 오차 누적 문제 해결한 KVarN 공개 — 2-bit에서 MATH500 등 SOTA

Huawei Computing Systems Lab이 KV-cache 양자화 시 autoregressive decoding에서 발생하는 오차 누적 문제를 해결한 KVarN을 공개했습니다. Hadamard 회전과 이중 스케일 분산 정규화를 통해 token-scale 오차를 줄여, 2-bit 정밀도에서 MATH500, AIME24, HumanEval 등 생성 벤치마크에서 기존 양자화 기법 대비 SOTA를 달성했습니다. vLLM 구현체도 함께 공개되었습니다.

Huawei 팀이 긴 문맥 추론에서 KV-cache 메모리 병목을 줄이기 위한 양자화 기법 KVarN을 제안했습니다.

핵심 결론

벤치 — 2-bit 양자화에서 MATH500, AIME24, HumanEval 등 생성 태스크에서 기존 양자화 기법 대비 가장 낮은 perplexity 손실과 높은 정확도를 기록했습니다.
모델 — Llama 계열 등 여러 모델에서 검증되었으며, vLLM 구현체도 공개되어 재현 가능합니다.

방법

오차 분석 — Autoregressive decoding에서 KV-cache 양자화 오차가 timestep마다 누적되며, 특히 잘못된 token-scale이 주 원인임을 밝혔습니다.
KVarN — Hadamard 회전 후 K와 V 행렬의 두 축에 대해 이중 스케일 분산 정규화를 적용해 outlier token-scale 오차를 교정합니다.
Calibration-free 방식이라 사전 데이터 없이 바로 적용 가능한 점이 실용적입니다.

한계·조건

정밀도 — 2-bit에서 효과적이나 4-bit 대비 추가 이득은 미미할 수 있습니다.
적용 범위 — 주로 생성 태스크에 초점이 맞춰져 있으며, 분류 등 다른 downstream에 대한 평가는 아직입니다.
코드 — GitHub에 vLLM 구현체가 공개되어 있어 쉽게 테스트 가능합니다.

편집자 한 줄

Calibration-free이면서도 2-bit에서 경쟁력 있는 성능을 내는 점이 인상적입니다. 다만 긴 문맥에서의 메모리 절감 효과를 정량적으로 더 보여주면 좋겠네요.

#kv-cache
#quantization
#huawei
#llm

HUAWEI Computing Systems Lab

원문 보기 →

Huawei, KV-cache 양자화에서 오차 누적 문제 해결한 KVarN 공개 — 2-bit에서 MATH500 등 SOTA

핵심 결론

방법

한계·조건

Comments