Papers·1개월 전

OSCAR: INT2 KV 캐시 양자화 — attention 공분산 구조를 활용해 Qwen3-32B·GLM-4.7에서 BF16과 동등 성능 유지

Together AI가 INT2 KV 캐시 양자화 방법 OSCAR를 제안했습니다. attention이 실제로 소비하는 공분산 구조를 사전에 추정해 고정 회전과 클리핑 임계값을 도출함으로써, 기존 Hadamard 회전 방식이 INT2에서 붕괴하던 문제를 해결했습니다. Qwen3-8B에서 BF16 대비 정확도 차이가 1.42점에 그쳤고, Qwen3-32B와 358B 파라미터 GLM-4.7에서는 사실상 동등했습니다. 128K 컨텍스트 RULER-NIAH 태스크에서도 강건했으며, KV 캐시 메모리는 약 8배 절감, 처리량은 최대 7배 향상되었습니다. 단, 커스텀 INT2 attention 커널이 필요하고 SGLang/vLLM과의 통합을 전제로 합니다.

#kv-cache
#quantization
#together-ai
#long-context
#attention

Together

원문 보기 →

OSCAR: INT2 KV 캐시 양자화 — attention 공분산 구조를 활용해 Qwen3-32B·GLM-4.7에서 BF16과 동등 성능 유지

Comments