Papers·1개월 전

Tencent, KV cache 13.5% 로 압축하는 Lookahead Sparse Attention 공개 — 500K에서 90% 이상 절감

Tencent 팀이 LongBench-v2, LongMemEval, RULER 등 장문 평가에서 평균 KV cache footprint 를 full-context 대비 13.5% 로 줄이면서도 downstream 정확도를 +0.6%p 개선한 LSA(Lookahead Sparse Attention) 방식을 제안했습니다. DeepSeek-V4 기반 Neural Memory Indexer 가 미리 필요한 KV 청크만 GPU 메모리에 유지하는 구조인데, backbone 없이 dual-encoder 로 indexer 만 따로 학습하는 decoupled training 전략이 핵심입니다. 500K 극한 길이에서도 물리적 KV cache 를 90% 이상 억제하며 backbone 추론 능력을 유지했다는 점이 흥미로운 포인트네요.

Tencent 팀이 장문 추론에서 KV cache 병목을 해소하는 Lookahead Sparse Attention(LSA) 방식을 공개했습니다.

핵심 결론

벤치 — LongBench-v2, LongMemEval, RULER 등 장문 평가에서 평균 KV cache footprint 를 13.5% 로 압축.
정확도 — Full-context 대비 downstream 정확도가 평균 +0.6%p 오히려 소폭 상승.
극한 길이 — 500K 컨텍스트에서 물리적 KV cache 를 90% 이상 절감, backbone 추론 안정성 유지.

방법

아이디어 — LSA 는 Neural Memory Indexer 가 미리 미래 컨텍스트 수요를 예측해 query-critical KV 청크만 GPU 메모리에 유지.
학습 — Indexer 를 backbone 과 분리해 dual-encoder 로 독립 학습 — 표준 retrieval training framework 사용.
효과 — "Less is more" 패러다임으로 attention denoiser 역할도 수행해 장기 메모리 태스크에서 성능 향상.

한계·조건

아키텍처 — DeepSeek-V4 기반으로 설계되어 다른 backbone 에 바로 적용 가능한지는 추가 검증 필요.
재현성 — 코드 공개 여부는 아직 확인되지 않았으며, 논문에는 abstract 와 figure 만 공개.
리소스 — Indexer 학습 자체는 가볍지만, 추론 시 indexer 호출 오버헤드가 추가됨.

편집자 한 줄

KV cache 압축률이 매우 인상적이지만, indexer 의 예측 실패 시 정확도 하락 가능성은 후속 연구에서 확인해볼 만합니다.

#attention
#kv-cache
#long-context
#tencent
#deepseek

Tencent

원문 보기 →

Tencent, KV cache 13.5% 로 압축하는 Lookahead Sparse Attention 공개 — 500K에서 90% 이상 절감

핵심 결론

방법

한계·조건

Comments