Papers·1개월 전

Tangram: 비균일 KV 캐시 압축을 위한 정적 스케줄링 프레임워크 — vLLM 기반 처리량 최대 2.6배 향상

멀티턴 LLM 서빙에서 KV 캐시가 모델 가중치보다 커져 메모리가 병목이 되는 문제를 해결하기 위해, KAIST 연구팀이 비균일 KV 압축을 실용화한 프레임워크 Tangram을 공개했습니다. 핵심은 head별 retention 패턴이 입력에 무관하게 구조적 규칙성을 띤다는 점을 발견해, 사전에 예산을 할당(Budget Reservation)하고, 유사 예산 head를 묶어 페이지 테이블을 분리(Ragged Paging)하며, GPU 부하를 미리 균형화(Ahead-of-Time Load Balancing)하는 정적 접근입니다. vLLM에 탑재 시 전체 KV 기준 대비 최대 2.6배 처리량 향상을 보였으며, 코드도 공개되었습니다.

KAIST 연구팀이 비균일 KV 압축의 실용적 장벽을 깨는 정적 스케줄링 프레임워크 Tangram을 공개했습니다.

핵심 결론

벤치 — vLLM 기반 end-to-end 처리량, full-KV 대비 최대 2.6배 향상.
정확도 — 기존 비균일 압축 방법의 정확도를 그대로 유지하면서 성능 개선.

방법

관찰 — Head별 KV retention 순위는 입력에 불변하며, 비율도 좁은 범위로 수렴 — 50개 샘플로 오프라인 보정 가능.
Budget Reservation — 스케줄링 시점에 각 head의 압축 후 크기를 고정해 페이지 회수를 없앰.
Ragged Paging — 유사 예산 head를 독립 페이지 테이블로 묶어 단편화를 회수 가능한 메모리로 전환.
Ahead-of-Time Load Balancing — 런타임 계획 없이 미리 균형 잡힌 GPU 파티션을 계산.

한계·조건

환경 — vLLM 기반 구현으로, 다른 serving stack에 적용 시 추가 작업 필요.
샘플 수 — 오프라인 보정에 50개 샘플이면 충분하지만, 도메인 shift가 큰 경우 재보정 필요 가능.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

비균일 압축의 실용성을 정적 분석으로 해결한 점이 인상적입니다. 특히 head ranking의 구조적 규칙성 발견이 핵심 통찰로 보입니다.

#kv-cache
#llm-serving
#compression
#kaist
#vllm

Hyungmin Kim

원문 보기 →

Tangram: 비균일 KV 캐시 압축을 위한 정적 스케줄링 프레임워크 — vLLM 기반 처리량 최대 2.6배 향상

핵심 결론

방법

한계·조건

Comments