← Back to feed
Papers·19시간 전

USC, 추론 모델 KV cache 압축 방법 VaSE — 4x 압축에서 SOTA 선택 방식보다 높은 정확도

USC, 추론 모델 KV cache 압축 방법 VaSE — 4x 압축에서 SOTA 선택 방식보다 높은 정확도

USC 연구팀이 추론 모델의 긴 출력에서 발생하는 KV cache 병목을 해결하는 Value-aware Stochastic KV Cache Eviction (VaSE)을 제안했습니다. 큰 magnitude의 value state를 보호하고 확률적 eviction으로 cache 다양성을 높여, Qwen3 모델에서 4x 압축 시 SOTA 선택 방식보다 높은 정확도를 달성하고 최강 eviction 방식보다 4% 이상 개선했습니다. 단, 이 방법은 training-free이며 FlashAttention2와 호환되지만, 벤치마크가 6개 reasoning task로 제한적입니다.

USC 연구팀이 추론 모델의 KV cache 압축을 위한 VaSE 방법을 공개했습니다.

핵심 결론

  • 성능Qwen3 모델에서 4x KV cache 압축 시 SOTA 선택 방식(Keep full cache)보다 높은 평균 정확도, 최강 eviction 방식보다 4% 이상 개선.
  • 태스크6개 reasoning task (수학, 논리 등)에서 평가.

방법

  • 핵심 발견일부 value state의 magnitude가 비정상적으로 크며, 이를 evict하면 모델이 반복 루프에 빠짐.
  • VaSE큰 magnitude의 value state를 보호하고, eviction 시 확률적 요소를 도입해 cache 다양성을 높임.
  • Training-free이며 FlashAttention2와 호환되어 정적 메모리 사용 가능.

한계·조건

  • 벤치 범위6개 reasoning task에 국한되어 일반화 검증 필요.
  • 재현성코드 공개 여부는 아직 확인되지 않음.

편집자 한 줄

eviction 방식이 선택 방식보다 정확도가 낮다는 통념을 깨는 결과라 흥미롭습니다.

  • #kv-cache
  • #reasoning
  • #usc
  • #efficiency
University of Southern California
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —