← Back to feed
Papers·어제

ByteDance, MLLM + Diffusion 통합 프레임워크 Bernini — 비디오 생성·편집 SOTA

ByteDance, MLLM + Diffusion 통합 프레임워크 Bernini — 비디오 생성·편집 SOTA

ByteDance가 MLLM(멀티모달 LLM)과 diffusion 모델을 분업 구조로 통합한 Bernini를 공개했습니다. MLLM 기반 planner가 ViT 임베딩 공간에서 의미 계획을 수립하고, DiT 기반 renderer가 이를 따라 픽셀을 합성합니다. 두 모듈은 별도 학습 후 가벼운 공동 학습만으로도 높은 성능을 내며, SA-3D RoPE와 chain-of-thought 추론을 도입해 복잡한 편집 태스크에서 강한 일반화를 보입니다. 단, planner로 사용한 MLLM의 크기와 학습 비용에 대한 구체적인 정보는 논문에 명시되지 않았습니다.

  • #video-generation
  • #video-editing
  • #mllm
  • #diffusion
  • #bytedance
ByteDance

Comments

— 첫 댓글을 남겨보세요 —