Papers·1개월 전

VideoMLA — KV cache 92.7% 줄인 멀티헤드 잠재 어텐션, 비디오 확산 모델에서 1.23x throughput 개선

Virginia Tech 팀이 비디오 확산 모델의 KV cache 를 92.7% 줄이는 Multi-Head Latent Attention (VideoMLA) 을 제안했습니다. 기존 언어 모델에서 동기를 얻었지만, 비디오 attention 은 low-rank 가 아니어서 spectral 근사로는 설명되지 않습니다. VideoMLA 는 latent 병목이 effective rank 를 결정하며, 학습 중 rank budget 을 유지하면서 적응한다는 점이 핵심입니다. VBench 장시간 롤아웃에서 최고 점수, B200 단일 GPU 기준 throughput 1.23x 향상.

비디오 확산 모델의 KV cache 메모리를 92.7% 줄이면서도 품질을 유지하는 VideoMLA 가 나왔습니다.

핵심 결론

태스크 — 롱-롤아웃 인과 비디오 확산 — fixed-size sliding-window KV cache 대비.
메모리 — 토큰당 KV cache 메모리 92.7% 감소 (모든 캐시 레이어에서).
성능 — VBench 장시간 롤아웃에서 평가된 방법 중 최고 종합 점수, throughput 1.23x (B200).

방법

아이디어 — 헤드별 key/value 를 공유 저랭크 콘텐츠 잠재와 분리된 3D-RoPE 위치 키로 대체.
직관 — 비디오 attention 은 low-rank 가 아니지만 (99% 에너지 effective rank 가 latent 차원보다 큼), MLA 병목이 effective rank 를 결정합니다. spectral 근사보다 훨씬 적은 왜곡.
훈련 — spectral 초기화든 random 초기화든 rank budget 을 거의 다 차지하며, 학습 중 budget 을 유지한 채 내부에서 적응합니다.

한계·조건

환경 — 단일 B200 기준 throughput 측정 — 멀티 GPU 스케일링 결과는 추가 필요.
비교 — 짧은 호라이즌에서는 기존 streaming diffusion baseline 과 비슷, 장시간에서만 우위.
코드 — Hugging Face 논문 페이지에서 공개 — 구현 세부 확인 가능.

편집자 한 줄

저랭크 가정이 깨지는 도메인에서도 latent bottleneck 이 잘 작동한다는 점이 흥미롭네요. 비디오 특화 3D-RoPE 디자인도 깔끔합니다.

#video-diffusion
#attention
#kv-cache
#virginia-tech

Virginia Tech

원문 보기 →

VideoMLA — KV cache 92.7% 줄인 멀티헤드 잠재 어텐션, 비디오 확산 모델에서 1.23x throughput 개선

핵심 결론

방법

한계·조건

Comments