Papers·어제
LCLM: 4B 디코더에 0.6B 인코더 붙여 KV cache 압축 — 1:16 압축률에서도 정확도 유지

Meta 연구팀이 KV cache 압축을 위해 encoder-decoder 구조를 재검토, 0.6B 인코더로 4B 디코더의 long-context 추론을 가속하는 LCLM(Latent Context Language Model)을 제안했습니다. 350B 토큰으로 사전학습한 결과 1:4~1:16 압축률에서 perplexity 손실이 기존 KV cache 압축 대비 30% 적었고, 압축 속도도 10배 빠릅니다. 단, 인코더가 추가로 필요해 peak memory는 오히려 늘어날 수 있다는 조건이 붙습니다.
Meta 팀이 KV cache 압축을 위해 encoder-decoder 구조를 재도입, 0.6B 인코더로 4B 디코더의 long-context 추론을 효율화한 LCLM을 공개했습니다.
핵심 결론
- 태스크 — Long-context LM 추론에서 KV cache 메모리 병목 해소.
- 개선폭 — 1:16 압축률에서 perplexity 손실 기존 대비 30% 감소, 압축 속도 10배 향상.
- 모델 — 0.6B 인코더 + 4B 디코더, 350B 토큰 continual pre-training.
방법
- 구조 탐색 — 다양한 encoder-decoder 변형을 scratch부터 사전학습해 최적 설계를 찾았습니다.
- 압축 방식 — 인코더가 긴 토큰 시퀀스를 짧은 latent embedding 시퀀스로 매핑, 디코더가 이를 소비.
- Adaptive expansion: 에이전트가 압축된 컨텍스트를 훑고 필요 시 관련 세그먼트를 동적으로 확장할 수 있습니다.
한계·조건
- 메모리 — 인코더가 추가로 필요해 peak memory는 오히려 증가할 수 있습니다.
- 호환성 — 기존 inference engine과의 통합은 추가 작업이 필요합니다.
- 공개 — 코드와 모델 가중치는 공개 예정이나 현재는 논문만 공개.
편집자 한 줄
Encoder-decoder 압축이 다시 주목받을 만한 결과네요. 단, 인코더 자체의 메모리/시간 비용을 실제 배포에서 어떻게 상쇄할지가 관건입니다.
- #kv-cache
- #long-context
- #meta
- #encoder-decoder
- #compression
Ang Li