Papers·1개월 전

LoomVideo: 5B 파라미터로 비디오 생성·편집 통합 — 추론 속도 5.41배 향상

Peking University 팀이 비디오 생성과 편집을 통합한 5B 파라미터 모델 LoomVideo를 공개했습니다. 기존 대형 모델(13B+)이 소스 비디오 조건을 위해 토큰 결합을 하면서 self-attention 복잡도가 4배 증가하는 문제를, Scale-and-Add conditioning 방식으로 해결해 추론 속도를 최소 5.41배 높였습니다. 단, e-commerce·패션 도메인에서 특히 강점을 보이며, 코드 공개 여부는 아직 확인되지 않았습니다.

Peking University 팀이 5B 파라미터로 비디오 생성과 편집을 모두 처리하는 통합 모델 LoomVideo를 제안했습니다.

핵심 결론

벤치 — 비디오 생성·편집 벤치마크에서 SOTA 또는 경쟁력 있는 성능, 특히 e-commerce·패션 생성에서 우수.
속도 — 유사 성능 모델 대비 추론 속도 최소 5.41배 가속.

방법

아키텍처 — 텍스트 인코더 대신 MLLM을 사용하고, Deepstack 주입으로 MLLM 특징을 DiT와 정렬.
편집 조건 — Scale-and-Add conditioning: 클린 소스 비디오 latent를 노이즈 타겟 latent에 스케일 후 더함. 토큰 결합 불필요.
Negative Temporal RoPE로 여러 참조 이미지 처리도 통합.

한계·조건

파라미터 — 5B로 기존 13B+ 모델보다 작지만, 여전히 상당한 GPU 메모리 필요.
도메인 — e-commerce·패션에서 특히 강점, 일반 도메인 성능은 추가 검증 필요.
코드 — 코드·모델 공개 여부는 논문에서 명시되지 않음.

편집자 한 줄

속도 개선폭이 인상적이지만, 실제 배포 환경에서의 일반화 성능은 후속 연구를 지켜봐야 할 듯합니다.

#video-generation
#video-editing
#diffusion-transformer
#peking-university
#efficient-architecture

Peking University

원문 보기 →

LoomVideo: 5B 파라미터로 비디오 생성·편집 통합 — 추론 속도 5.41배 향상

핵심 결론

방법

한계·조건

Comments