Papers·1개월 전

Zhejiang大, AR 비디오 확산 모델의 KV 캐시 압축으로 속도 2.82x 개선

Zhejiang University 팀이 autoregressive 비디오 확산 모델의 KV 캐시 중복 문제를 해결하는 Forcing-KV를 제안했습니다. attention head를 정적/동적 두 유형으로 나누어 각각 구조적 프루닝과 세그먼트 기반 동적 프루닝을 적용, 480P에서 1.35~1.50x, 1080P에서 2.82x 속도 향상을 달성했으며 메모리는 30% 절감합니다. 단, 단일 H200 GPU 기준이며 코드와 데모가 공개되어 있습니다.

#video-diffusion
#kv-cache
#autoregressive
#zhejiang-university

Zhejiang University

원문 보기 →

Zhejiang大, AR 비디오 확산 모델의 KV 캐시 압축으로 속도 2.82x 개선

Comments