← Back to feed
Papers·어제

LoomVideo: 5B 파라미터로 비디오 생성·편집 통합 — 추론 속도 5.41배 향상

LoomVideo: 5B 파라미터로 비디오 생성·편집 통합 — 추론 속도 5.41배 향상

Peking University 팀이 비디오 생성과 편집을 통합한 5B 파라미터 모델 LoomVideo를 공개했습니다. 기존 대형 모델(13B+)이 소스 비디오 조건을 위해 토큰 결합을 하면서 self-attention 복잡도가 4배 증가하는 문제를, Scale-and-Add conditioning 방식으로 해결해 추론 속도를 최소 5.41배 높였습니다. 단, e-commerce·패션 도메인에서 특히 강점을 보이며, 코드 공개 여부는 아직 확인되지 않았습니다.

Peking University 팀이 5B 파라미터로 비디오 생성과 편집을 모두 처리하는 통합 모델 LoomVideo를 제안했습니다.

핵심 결론

  • 벤치비디오 생성·편집 벤치마크에서 SOTA 또는 경쟁력 있는 성능, 특히 e-commerce·패션 생성에서 우수.
  • 속도유사 성능 모델 대비 추론 속도 최소 5.41배 가속.

방법

  • 아키텍처텍스트 인코더 대신 MLLM을 사용하고, Deepstack 주입으로 MLLM 특징을 DiT와 정렬.
  • 편집 조건Scale-and-Add conditioning: 클린 소스 비디오 latent를 노이즈 타겟 latent에 스케일 후 더함. 토큰 결합 불필요.
  • Negative Temporal RoPE로 여러 참조 이미지 처리도 통합.

한계·조건

  • 파라미터5B로 기존 13B+ 모델보다 작지만, 여전히 상당한 GPU 메모리 필요.
  • 도메인e-commerce·패션에서 특히 강점, 일반 도메인 성능은 추가 검증 필요.
  • 코드코드·모델 공개 여부는 논문에서 명시되지 않음.

편집자 한 줄

속도 개선폭이 인상적이지만, 실제 배포 환경에서의 일반화 성능은 후속 연구를 지켜봐야 할 듯합니다.

  • #video-generation
  • #video-editing
  • #diffusion-transformer
  • #peking-university
  • #efficient-architecture
Peking University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —