Papers·1개월 전

LVSA: 학습 없는 블록-희소 주의로 긴 비디오 확산 추론 3.3배 가속

LVSA는 비디오 확산 트랜스포머를 위한 학습 없는 모델-무관 블록-희소 주의 메커니즘으로, 구조화된 윈도우 패턴과 회전 글로벌 앵커를 결합해 긴 시간 범위에서 발생하는 아티팩트를 제거합니다. Wan 2.1 1.3B에서 6배 수평선 기준 3.17배, HunyuanVideo 1.5에서 1.5배 수평선 기준 3.33배의 연산 감소를 달성했으며, NPU에서도 2.71배 가속을 보였습니다. 또한, 기존 평가자들이 루프 비디오 실패를 잘못 보상하는 문제를 해결하기 위해 VQeval 도구를 도입했습니다.

LVSA는 학습 없이 긴 비디오 확산 추론에서 연산을 최대 3.3배 줄이는 블록-희소 주의 기법입니다.

핵심 결론

연산 감소 — Wan 2.1 1.3B 6x 수평선에서 3.17배, Wan 2.1 14B 6x에서 2.98배, HunyuanVideo 1.5 1.5x에서 3.33배 감소.
품질 — 학습 수평선 길이에서는 품질 중립, 확장된 길이에서는 품질 향상.
메모리 — HunyuanVideo 1.5 2x 수평선 생성이 단일 GPU에서 가능 (기존에는 OOM).

방법

블록-희소 패턴 — 구조화된 윈도우 주의에 회전 글로벌 앵커를 추가해 고정 그리드 편향을 제거.
FlashInfer 커널 — LVSA는 FlashInfer 커널과 결합되어 효율적인 블록-희소 연산을 수행.
모델 무관 — Wan 2.1, HunyuanVideo 등 다양한 비디오 확산 모델에 적용 가능.

한계·조건

비교 대상 — RIFLEx 대비 2.41배, UltraViCo 대비 3.27배 속도 향상 (Wan 2.1 1.3B 기준).
NPU 지원 — NPU에서 Wan 2.2 A14B 2.71배, Wan 2.1 1.3B 3.24배 가속.
평가 도구 — VQeval 도구를 도입해 루프 비디오 실패를 올바르게 평가 (기존 VBench-Long은 루프를 보상).

편집자 한 줄

학습 없이 다양한 모델에 적용 가능한 점이 실용적이며, NPU까지 지원해 하드웨어 호환성도 챙긴 점이 인상적입니다.

#video-diffusion
#attention
#sparse-attention
#long-video
#lvsa

Gael Glorian

원문 보기 →

LVSA: 학습 없는 블록-희소 주의로 긴 비디오 확산 추론 3.3배 가속

핵심 결론

방법

한계·조건

Comments