Papers·19시간 전
USC, 추론 모델 KV cache 압축 방법 VaSE — 4x 압축에서 SOTA 선택 방식보다 높은 정확도

USC 연구팀이 추론 모델의 긴 출력에서 발생하는 KV cache 병목을 해결하는 Value-aware Stochastic KV Cache Eviction (VaSE)을 제안했습니다. 큰 magnitude의 value state를 보호하고 확률적 eviction으로 cache 다양성을 높여, Qwen3 모델에서 4x 압축 시 SOTA 선택 방식보다 높은 정확도를 달성하고 최강 eviction 방식보다 4% 이상 개선했습니다. 단, 이 방법은 training-free이며 FlashAttention2와 호환되지만, 벤치마크가 6개 reasoning task로 제한적입니다.
USC 연구팀이 추론 모델의 KV cache 압축을 위한 VaSE 방법을 공개했습니다.
핵심 결론
- 성능 — Qwen3 모델에서 4x KV cache 압축 시 SOTA 선택 방식(Keep full cache)보다 높은 평균 정확도, 최강 eviction 방식보다 4% 이상 개선.
- 태스크 — 6개 reasoning task (수학, 논리 등)에서 평가.
방법
- 핵심 발견 — 일부 value state의 magnitude가 비정상적으로 크며, 이를 evict하면 모델이 반복 루프에 빠짐.
- VaSE — 큰 magnitude의 value state를 보호하고, eviction 시 확률적 요소를 도입해 cache 다양성을 높임.
- Training-free이며 FlashAttention2와 호환되어 정적 메모리 사용 가능.
한계·조건
- 벤치 범위 — 6개 reasoning task에 국한되어 일반화 검증 필요.
- 재현성 — 코드 공개 여부는 아직 확인되지 않음.
편집자 한 줄
eviction 방식이 선택 방식보다 정확도가 낮다는 통념을 깨는 결과라 흥미롭습니다.
- #kv-cache
- #reasoning
- #usc
- #efficiency
University of Southern California