← Back to feed
Papers·어제

LCLM: 4B 디코더에 0.6B 인코더 붙여 KV cache 압축 — 1:16 압축률에서도 정확도 유지

LCLM: 4B 디코더에 0.6B 인코더 붙여 KV cache 압축 — 1:16 압축률에서도 정확도 유지

Meta 연구팀이 KV cache 압축을 위해 encoder-decoder 구조를 재검토, 0.6B 인코더로 4B 디코더의 long-context 추론을 가속하는 LCLM(Latent Context Language Model)을 제안했습니다. 350B 토큰으로 사전학습한 결과 1:4~1:16 압축률에서 perplexity 손실이 기존 KV cache 압축 대비 30% 적었고, 압축 속도도 10배 빠릅니다. 단, 인코더가 추가로 필요해 peak memory는 오히려 늘어날 수 있다는 조건이 붙습니다.

Meta 팀이 KV cache 압축을 위해 encoder-decoder 구조를 재도입, 0.6B 인코더로 4B 디코더의 long-context 추론을 효율화한 LCLM을 공개했습니다.

핵심 결론

  • 태스크Long-context LM 추론에서 KV cache 메모리 병목 해소.
  • 개선폭1:16 압축률에서 perplexity 손실 기존 대비 30% 감소, 압축 속도 10배 향상.
  • 모델0.6B 인코더 + 4B 디코더, 350B 토큰 continual pre-training.

방법

  • 구조 탐색다양한 encoder-decoder 변형을 scratch부터 사전학습해 최적 설계를 찾았습니다.
  • 압축 방식인코더가 긴 토큰 시퀀스를 짧은 latent embedding 시퀀스로 매핑, 디코더가 이를 소비.
  • Adaptive expansion: 에이전트가 압축된 컨텍스트를 훑고 필요 시 관련 세그먼트를 동적으로 확장할 수 있습니다.

한계·조건

  • 메모리인코더가 추가로 필요해 peak memory는 오히려 증가할 수 있습니다.
  • 호환성기존 inference engine과의 통합은 추가 작업이 필요합니다.
  • 공개코드와 모델 가중치는 공개 예정이나 현재는 논문만 공개.

편집자 한 줄

Encoder-decoder 압축이 다시 주목받을 만한 결과네요. 단, 인코더 자체의 메모리/시간 비용을 실제 배포에서 어떻게 상쇄할지가 관건입니다.

  • #kv-cache
  • #long-context
  • #meta
  • #encoder-decoder
  • #compression
Ang Li
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —