Papers·1개월 전

LCLM: 4B 디코더에 0.6B 인코더 붙여 KV cache 압축 — 1:16 압축률에서도 정확도 유지

Meta 연구팀이 KV cache 압축을 위해 encoder-decoder 구조를 재검토, 0.6B 인코더로 4B 디코더의 long-context 추론을 가속하는 LCLM(Latent Context Language Model)을 제안했습니다. 350B 토큰으로 사전학습한 결과 1:4~1:16 압축률에서 perplexity 손실이 기존 KV cache 압축 대비 30% 적었고, 압축 속도도 10배 빠릅니다. 단, 인코더가 추가로 필요해 peak memory는 오히려 늘어날 수 있다는 조건이 붙습니다.

Meta 팀이 KV cache 압축을 위해 encoder-decoder 구조를 재도입, 0.6B 인코더로 4B 디코더의 long-context 추론을 효율화한 LCLM을 공개했습니다.

핵심 결론

태스크 — Long-context LM 추론에서 KV cache 메모리 병목 해소.
개선폭 — 1:16 압축률에서 perplexity 손실 기존 대비 30% 감소, 압축 속도 10배 향상.
모델 — 0.6B 인코더 + 4B 디코더, 350B 토큰 continual pre-training.

방법

구조 탐색 — 다양한 encoder-decoder 변형을 scratch부터 사전학습해 최적 설계를 찾았습니다.
압축 방식 — 인코더가 긴 토큰 시퀀스를 짧은 latent embedding 시퀀스로 매핑, 디코더가 이를 소비.
Adaptive expansion: 에이전트가 압축된 컨텍스트를 훑고 필요 시 관련 세그먼트를 동적으로 확장할 수 있습니다.

한계·조건

메모리 — 인코더가 추가로 필요해 peak memory는 오히려 증가할 수 있습니다.
호환성 — 기존 inference engine과의 통합은 추가 작업이 필요합니다.
공개 — 코드와 모델 가중치는 공개 예정이나 현재는 논문만 공개.

편집자 한 줄

Encoder-decoder 압축이 다시 주목받을 만한 결과네요. 단, 인코더 자체의 메모리/시간 비용을 실제 배포에서 어떻게 상쇄할지가 관건입니다.

#kv-cache
#long-context
#meta
#encoder-decoder
#compression

Ang Li

원문 보기 →

LCLM: 4B 디코더에 0.6B 인코더 붙여 KV cache 압축 — 1:16 압축률에서도 정확도 유지

핵심 결론

방법

한계·조건

Comments