Papers·1개월 전

USC, 추론 모델 KV cache 압축 방법 VaSE — 4x 압축에서 SOTA 선택 방식보다 높은 정확도

USC 연구팀이 추론 모델의 긴 출력에서 발생하는 KV cache 병목을 해결하는 Value-aware Stochastic KV Cache Eviction (VaSE)을 제안했습니다. 큰 magnitude의 value state를 보호하고 확률적 eviction으로 cache 다양성을 높여, Qwen3 모델에서 4x 압축 시 SOTA 선택 방식보다 높은 정확도를 달성하고 최강 eviction 방식보다 4% 이상 개선했습니다. 단, 이 방법은 training-free이며 FlashAttention2와 호환되지만, 벤치마크가 6개 reasoning task로 제한적입니다.

USC 연구팀이 추론 모델의 KV cache 압축을 위한 VaSE 방법을 공개했습니다.

핵심 결론

성능 — Qwen3 모델에서 4x KV cache 압축 시 SOTA 선택 방식(Keep full cache)보다 높은 평균 정확도, 최강 eviction 방식보다 4% 이상 개선.
태스크 — 6개 reasoning task (수학, 논리 등)에서 평가.

방법

핵심 발견 — 일부 value state의 magnitude가 비정상적으로 크며, 이를 evict하면 모델이 반복 루프에 빠짐.
VaSE — 큰 magnitude의 value state를 보호하고, eviction 시 확률적 요소를 도입해 cache 다양성을 높임.
Training-free이며 FlashAttention2와 호환되어 정적 메모리 사용 가능.

한계·조건

벤치 범위 — 6개 reasoning task에 국한되어 일반화 검증 필요.
재현성 — 코드 공개 여부는 아직 확인되지 않음.

편집자 한 줄

eviction 방식이 선택 방식보다 정확도가 낮다는 통념을 깨는 결과라 흥미롭습니다.

#kv-cache
#reasoning
#usc
#efficiency

University of Southern California

원문 보기 →

USC, 추론 모델 KV cache 압축 방법 VaSE — 4x 압축에서 SOTA 선택 방식보다 높은 정확도

핵심 결론

방법

한계·조건

Comments