← Back to feed
Papers·어제

Tencent, KV cache 13.5% 로 압축하는 Lookahead Sparse Attention 공개 — 500K에서 90% 이상 절감

Tencent, KV cache 13.5% 로 압축하는 Lookahead Sparse Attention 공개 — 500K에서 90% 이상 절감

Tencent 팀이 LongBench-v2, LongMemEval, RULER 등 장문 평가에서 평균 KV cache footprint 를 full-context 대비 13.5% 로 줄이면서도 downstream 정확도를 +0.6%p 개선한 LSA(Lookahead Sparse Attention) 방식을 제안했습니다. DeepSeek-V4 기반 Neural Memory Indexer 가 미리 필요한 KV 청크만 GPU 메모리에 유지하는 구조인데, backbone 없이 dual-encoder 로 indexer 만 따로 학습하는 decoupled training 전략이 핵심입니다. 500K 극한 길이에서도 물리적 KV cache 를 90% 이상 억제하며 backbone 추론 능력을 유지했다는 점이 흥미로운 포인트네요.

Tencent 팀이 장문 추론에서 KV cache 병목을 해소하는 Lookahead Sparse Attention(LSA) 방식을 공개했습니다.

핵심 결론

  • 벤치LongBench-v2, LongMemEval, RULER 등 장문 평가에서 평균 KV cache footprint 를 13.5% 로 압축.
  • 정확도Full-context 대비 downstream 정확도가 평균 +0.6%p 오히려 소폭 상승.
  • 극한 길이500K 컨텍스트에서 물리적 KV cache 를 90% 이상 절감, backbone 추론 안정성 유지.

방법

  • 아이디어LSA 는 Neural Memory Indexer 가 미리 미래 컨텍스트 수요를 예측해 query-critical KV 청크만 GPU 메모리에 유지.
  • 학습Indexer 를 backbone 과 분리해 dual-encoder 로 독립 학습 — 표준 retrieval training framework 사용.
  • 효과"Less is more" 패러다임으로 attention denoiser 역할도 수행해 장기 메모리 태스크에서 성능 향상.

한계·조건

  • 아키텍처DeepSeek-V4 기반으로 설계되어 다른 backbone 에 바로 적용 가능한지는 추가 검증 필요.
  • 재현성코드 공개 여부는 아직 확인되지 않았으며, 논문에는 abstract 와 figure 만 공개.
  • 리소스Indexer 학습 자체는 가볍지만, 추론 시 indexer 호출 오버헤드가 추가됨.

편집자 한 줄

KV cache 압축률이 매우 인상적이지만, indexer 의 예측 실패 시 정확도 하락 가능성은 후속 연구에서 확인해볼 만합니다.

  • #attention
  • #kv-cache
  • #long-context
  • #tencent
  • #deepseek
Tencent
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —