Papers·어제
LoomVideo: 5B 파라미터로 비디오 생성·편집 통합 — 추론 속도 5.41배 향상

Peking University 팀이 비디오 생성과 편집을 통합한 5B 파라미터 모델 LoomVideo를 공개했습니다. 기존 대형 모델(13B+)이 소스 비디오 조건을 위해 토큰 결합을 하면서 self-attention 복잡도가 4배 증가하는 문제를, Scale-and-Add conditioning 방식으로 해결해 추론 속도를 최소 5.41배 높였습니다. 단, e-commerce·패션 도메인에서 특히 강점을 보이며, 코드 공개 여부는 아직 확인되지 않았습니다.
Peking University 팀이 5B 파라미터로 비디오 생성과 편집을 모두 처리하는 통합 모델 LoomVideo를 제안했습니다.
핵심 결론
- 벤치 — 비디오 생성·편집 벤치마크에서 SOTA 또는 경쟁력 있는 성능, 특히 e-commerce·패션 생성에서 우수.
- 속도 — 유사 성능 모델 대비 추론 속도 최소 5.41배 가속.
방법
- 아키텍처 — 텍스트 인코더 대신 MLLM을 사용하고, Deepstack 주입으로 MLLM 특징을 DiT와 정렬.
- 편집 조건 — Scale-and-Add conditioning: 클린 소스 비디오 latent를 노이즈 타겟 latent에 스케일 후 더함. 토큰 결합 불필요.
- Negative Temporal RoPE로 여러 참조 이미지 처리도 통합.
한계·조건
- 파라미터 — 5B로 기존 13B+ 모델보다 작지만, 여전히 상당한 GPU 메모리 필요.
- 도메인 — e-commerce·패션에서 특히 강점, 일반 도메인 성능은 추가 검증 필요.
- 코드 — 코드·모델 공개 여부는 논문에서 명시되지 않음.
편집자 한 줄
속도 개선폭이 인상적이지만, 실제 배포 환경에서의 일반화 성능은 후속 연구를 지켜봐야 할 듯합니다.
- #video-generation
- #video-editing
- #diffusion-transformer
- #peking-university
- #efficient-architecture
Peking University