Papers·1개월 전

ByteDance, MLLM + Diffusion 통합 프레임워크 Bernini — 비디오 생성·편집 SOTA

ByteDance가 MLLM(멀티모달 LLM)과 diffusion 모델을 분업 구조로 통합한 Bernini를 공개했습니다. MLLM 기반 planner가 ViT 임베딩 공간에서 의미 계획을 수립하고, DiT 기반 renderer가 이를 따라 픽셀을 합성합니다. 두 모듈은 별도 학습 후 가벼운 공동 학습만으로도 높은 성능을 내며, SA-3D RoPE와 chain-of-thought 추론을 도입해 복잡한 편집 태스크에서 강한 일반화를 보입니다. 단, planner로 사용한 MLLM의 크기와 학습 비용에 대한 구체적인 정보는 논문에 명시되지 않았습니다.

#video-generation
#video-editing
#mllm
#diffusion
#bytedance

ByteDance

원문 보기 →

ByteDance, MLLM + Diffusion 통합 프레임워크 Bernini — 비디오 생성·편집 SOTA

Comments