Papers·2개월 전

Tsinghua, DiT 기반 비디오 생성 추론 가속 — 3D attention step 수 절반으로 줄여 속도 1.9x

Tsinghua 팀이 Diffusion Transformer(DiT) 기반 비디오 생성 모델의 추론 속도를 1.9배 높이는 training-free 프레임워크 RhymeFlow를 공개했습니다. 핵심은 모든 프레임에 동일한 denoising step을 적용하는 기존 방식을 깨고, 키프레임만 dense하게 denoising하고 나머지는 step을 건너뛰는 방식입니다. 건너뛴 프레임의 temporal coherence를 복원하기 위한 latent trajectory projection 모듈도 함께 도입했는데, OpenSora, Latte 등 여러 DiT 모델에서 FID, FVD 모두 개선하면서 속도도 크게 올린 점이 인상적입니다. 단, 이 방법은 키프레임 간격 하이퍼파라미터에 민감해 장면 전환이 잦은 비디오에서는 튜닝이 필요할 수 있습니다.

Tsinghua 팀이 DiT 기반 비디오 생성 모델의 추론 속도를 1.9배 높이는 training-free 프레임워크 RhymeFlow를 공개했습니다.

핵심 결론

속도 — OpenSora, Latte 등 DiT 기반 모델에서 inference step 수를 절반으로 줄여 1.9x 속도 향상.
품질 — FID, FVD 모두 기존 sparse attention, KV-cache 기반 방법보다 개선, 오히려 일부 메트릭에서는 full denoising 대비 더 나은 결과.

방법

키프레임 식별 — 프레임 간 변화량을 기반으로 latent semantic evolution을 주도하는 sparse keyframe 집합을 동적으로 선정.
비대칭 denoising — 키프레임은 모든 step을 거쳐 dense denoising, 비키프레임은 step을 점진적으로 건너뛰어 연산량 감소.
시간적 일관성 — 건너뛴 step으로 인한 temporal discontinuity를 해결하기 위해 latent trajectory projection 모듈을 도입, 키프레임이 완전한 시퀀스 표현과 상호작용하도록 설계.

한계·조건

하이퍼파라미터 — 키프레임 간격과 skip 비율은 하이퍼파라미터로, 장면 전환이 잦은 비디오에서는 최적 튜닝이 필요.
재현성 — 코드 공개 예정 — 현재는 논문과 Hugging Face 페이지에서 figure와 ablation 결과만 확인 가능.
범위 — OpenSora, Latte, VideoCrafter2 등 DiT 기반 모델에서 검증되었으나, U-Net 기반 모델에는 적용되지 않음.

편집자 한 줄

training-free 라는 점이 실용적이지만, 키프레임 선택 기준이 단순한 차분 기반이라 복잡한 모션에서는 robustness를 추가로 확인할 필요가 있어 보입니다.

#video-generation
#diffusion-transformer
#acceleration
#tsinghua

Tsinghua University

원문 보기 →

Tsinghua, DiT 기반 비디오 생성 추론 가속 — 3D attention step 수 절반으로 줄여 속도 1.9x

핵심 결론

방법

한계·조건

Comments