Papers·5일 전
Zhejiang大, AR 비디오 확산 모델의 KV 캐시 압축으로 속도 2.82x 개선

Zhejiang University 팀이 autoregressive 비디오 확산 모델의 KV 캐시 중복 문제를 해결하는 Forcing-KV를 제안했습니다. attention head를 정적/동적 두 유형으로 나누어 각각 구조적 프루닝과 세그먼트 기반 동적 프루닝을 적용, 480P에서 1.35~1.50x, 1080P에서 2.82x 속도 향상을 달성했으며 메모리는 30% 절감합니다. 단, 단일 H200 GPU 기준이며 코드와 데모가 공개되어 있습니다.
- #video-diffusion
- #kv-cache
- #autoregressive
- #zhejiang-university
Zhejiang University