Papers·1개월 전

미시간대, 이종 모델 간 KV cache 통신으로 텍스트 대비 2~3배 연산 절감

미시간대 연구팀이 서로 다른 모델(Qwen3-4B/8B/14B) 간 KV cache를 직접 전달하는 이종 멀티에이전트 통신 방법을 제안했습니다. 경량 cross-model 변환기와 재구성-생성 2단계 학습을 통해 context-aware 설정에서 텍스트 통신과 동등하거나 더 나은 성능을 2~3배 낮은 연산으로 달성했고, context-unaware 설정에서도 기존 방법이 붕괴하는 상황에서 유효했습니다.

이종 모델 간 KV cache를 직접 주고받아 텍스트 통신의 디코딩-재인코딩 비용을 줄이는 방법이 나왔습니다.

핵심 결론

벤치 — 6개 방향(Qwen3-4B↔8B, 4B↔14B, 8B↔14B)과 6개 in/out-of-domain 벤치마크에서 기존 이종 baseline을 능가.
통신 비용 — Context-aware 설정에서 텍스트 통신 대비 연산량 2~3배 절감, 성능은 동등 이상.
Context-unaware — 수신자가 입력을 전혀 보지 못하는 설정에서도 기존 방법이 붕괴하는 상황에서 유효한 전송이 가능했습니다.

방법

정보구조 분석 — Context-aware 전송은 sparse reasoning 신호가 중요하고, context-unaware는 dense contextual knowledge 보존이 필요하다는 이중성을 발견.
경량 변환기 — 서로 다른 모델의 KV cache 차원을 맞추는 cross-model 변환기를 도입, 파라미터 수는 매우 작음.
2단계 학습 — 1단계 재구성(reconstruction) 손실로 cache를 정렬하고, 2단계 생성(generation) 손실로 downstream 성능을 최적화.

한계·조건

모델군 — Qwen3 계열(4B/8B/14B)로만 실험, 다른 아키텍처(LLaMA, Mistral)로의 일반화는 검증되지 않음.
코드 — 현재 코드 공개 여부는 불확실, Hugging Face 논문 페이지에 abstract만 공개.

편집자 한 줄

이종 모델 간 KV cache 통신은 멀티에이전트 시스템의 병목을 줄일 유망한 방향이지만, 다양한 모델 아키텍처로 확장될 수 있을지가 관건입니다.

#kv-cache
#multi-agent
#heterogeneous
#university-of-michigan

University of Michigan

원문 보기 →

미시간대, 이종 모델 간 KV cache 통신으로 텍스트 대비 2~3배 연산 절감

핵심 결론

방법

한계·조건

Comments