Papers·1개월 전

Yale, 글로벌 학습 기반 KV eviction — 전체 캐시보다 성능 개선

Yale 팀이 글로벌 retention 기반 KV eviction 방법을 제안했습니다. 각 토큰의 미래 유용성을 학습해 제한된 메모리 예산 내에서 캐시를 관리하며, 긴 문맥 추론에서 전체 캐시를 사용할 때보다 오히려 성능이 향상되는 경우가 있음을 보였습니다. 이는 불필요한 토큰이 attention을 희석하는 현상을 줄이기 때문으로, 다양한 long-context 언어·비전-언어·멀티턴 대화 벤치마크에서 KV 메모리를 크게 줄이면서도 전체 캐시와 동등하거나 더 나은 결과를 냈습니다. 다만 이 방법은 학습 가능한 retention 게이트와 공유 scoring projection이 필요해 추가 학습 비용이 듭니다.

#kv-cache
#long-context
#attention
#yale

Yale University

원문 보기 →

Yale, 글로벌 학습 기반 KV eviction — 전체 캐시보다 성능 개선

Comments