← Back to feed
Papers·2일 전

Tangram: 비균일 KV 캐시 압축을 위한 정적 스케줄링 프레임워크 — vLLM 기반 처리량 최대 2.6배 향상

Tangram: 비균일 KV 캐시 압축을 위한 정적 스케줄링 프레임워크 — vLLM 기반 처리량 최대 2.6배 향상

멀티턴 LLM 서빙에서 KV 캐시가 모델 가중치보다 커져 메모리가 병목이 되는 문제를 해결하기 위해, KAIST 연구팀이 비균일 KV 압축을 실용화한 프레임워크 Tangram을 공개했습니다. 핵심은 head별 retention 패턴이 입력에 무관하게 구조적 규칙성을 띤다는 점을 발견해, 사전에 예산을 할당(Budget Reservation)하고, 유사 예산 head를 묶어 페이지 테이블을 분리(Ragged Paging)하며, GPU 부하를 미리 균형화(Ahead-of-Time Load Balancing)하는 정적 접근입니다. vLLM에 탑재 시 전체 KV 기준 대비 최대 2.6배 처리량 향상을 보였으며, 코드도 공개되었습니다.

KAIST 연구팀이 비균일 KV 압축의 실용적 장벽을 깨는 정적 스케줄링 프레임워크 Tangram을 공개했습니다.

핵심 결론

  • 벤치vLLM 기반 end-to-end 처리량, full-KV 대비 최대 2.6배 향상.
  • 정확도기존 비균일 압축 방법의 정확도를 그대로 유지하면서 성능 개선.

방법

  • 관찰Head별 KV retention 순위는 입력에 불변하며, 비율도 좁은 범위로 수렴 — 50개 샘플로 오프라인 보정 가능.
  • Budget Reservation스케줄링 시점에 각 head의 압축 후 크기를 고정해 페이지 회수를 없앰.
  • Ragged Paging유사 예산 head를 독립 페이지 테이블로 묶어 단편화를 회수 가능한 메모리로 전환.
  • Ahead-of-Time Load Balancing런타임 계획 없이 미리 균형 잡힌 GPU 파티션을 계산.

한계·조건

  • 환경vLLM 기반 구현으로, 다른 serving stack에 적용 시 추가 작업 필요.
  • 샘플 수오프라인 보정에 50개 샘플이면 충분하지만, 도메인 shift가 큰 경우 재보정 필요 가능.
  • 코드GitHub에 공개되어 재현 가능.

편집자 한 줄

비균일 압축의 실용성을 정적 분석으로 해결한 점이 인상적입니다. 특히 head ranking의 구조적 규칙성 발견이 핵심 통찰로 보입니다.

  • #kv-cache
  • #llm-serving
  • #compression
  • #kaist
  • #vllm
Hyungmin Kim
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —