Papers·2일 전
Huawei, KV-cache 양자화에서 오차 누적 문제 해결한 KVarN 공개 — 2-bit에서 MATH500 등 SOTA

Huawei Computing Systems Lab이 KV-cache 양자화 시 autoregressive decoding에서 발생하는 오차 누적 문제를 해결한 KVarN을 공개했습니다. Hadamard 회전과 이중 스케일 분산 정규화를 통해 token-scale 오차를 줄여, 2-bit 정밀도에서 MATH500, AIME24, HumanEval 등 생성 벤치마크에서 기존 양자화 기법 대비 SOTA를 달성했습니다. vLLM 구현체도 함께 공개되었습니다.
Huawei 팀이 긴 문맥 추론에서 KV-cache 메모리 병목을 줄이기 위한 양자화 기법 KVarN을 제안했습니다.
핵심 결론
- 벤치 — 2-bit 양자화에서 MATH500, AIME24, HumanEval 등 생성 태스크에서 기존 양자화 기법 대비 가장 낮은 perplexity 손실과 높은 정확도를 기록했습니다.
- 모델 — Llama 계열 등 여러 모델에서 검증되었으며, vLLM 구현체도 공개되어 재현 가능합니다.
방법
- 오차 분석 — Autoregressive decoding에서 KV-cache 양자화 오차가 timestep마다 누적되며, 특히 잘못된 token-scale이 주 원인임을 밝혔습니다.
- KVarN — Hadamard 회전 후 K와 V 행렬의 두 축에 대해 이중 스케일 분산 정규화를 적용해 outlier token-scale 오차를 교정합니다.
- Calibration-free 방식이라 사전 데이터 없이 바로 적용 가능한 점이 실용적입니다.
한계·조건
- 정밀도 — 2-bit에서 효과적이나 4-bit 대비 추가 이득은 미미할 수 있습니다.
- 적용 범위 — 주로 생성 태스크에 초점이 맞춰져 있으며, 분류 등 다른 downstream에 대한 평가는 아직입니다.
- 코드 — GitHub에 vLLM 구현체가 공개되어 있어 쉽게 테스트 가능합니다.
편집자 한 줄
Calibration-free이면서도 2-bit에서 경쟁력 있는 성능을 내는 점이 인상적입니다. 다만 긴 문맥에서의 메모리 절감 효과를 정량적으로 더 보여주면 좋겠네요.
- #kv-cache
- #quantization
- #huawei
- #llm
HUAWEI Computing Systems Lab