Papers·1개월 전

KVServe: 분리형 LLM 서빙에서 KV 통신 압축 적응형 프레임워크 — JCT 최대 9.13배, TTFT 최대 32.8배 개선

중국과학원 컴퓨팅기술연구소(ICT, CAS) 팀이 분리형(disaggregated) LLM 서빙 환경에서 KV 캐시 전송을 서비스 인식 및 적응적으로 압축하는 프레임워크 KVServe를 제안했습니다. 기존 정적 압축 방식은 워크로드 혼합, 대역폭, SLO 변화에 따라 오히려 지연 시간을 증가시킬 수 있는 문제가 있었는데, KVServe는 베이지안 프로파일링 엔진으로 3D 파레토 후보 집합을 50배 빠르게 탐색하고, 서비스 인식 온라인 컨트롤러가 분석적 지연 모델과 경량 밴디트를 결합해 최적 프로파일을 선택합니다. vLLM에 통합해 평가한 결과, PD 분리 서빙에서 JCT 최대 9.13배, KV 분리 서빙에서 TTFT 최대 32.8배 감소를 달성했습니다. 다만 실험 환경이 제한적이며, 실제 프로덕션 다양성을 완전히 반영하지는 못한 점이 한계입니다.

#llm-serving
#kv-cache
#disaggregated-serving
#compression
#ict-cas

Institute of Computing Technology, Chinese Academy of Sciences

원문 보기 →

KVServe: 분리형 LLM 서빙에서 KV 통신 압축 적응형 프레임워크 — JCT 최대 9.13배, TTFT 최대 32.8배 개선

Comments