Papers·6일 전
MMCORE: VLM-guided diffusion for multimodal generation — outperforms SOTA on T2I and editing benchmarks

MMCORE는 사전 훈련된 VLM의 query token으로 semantic visual embedding을 예측해 diffusion model을 조건화하는 통합 프레임워크로, autoregressive 모델과의 deep fusion이나 처음부터 재훈련 없이 고품질 합성을 달성한다. 텍스트-이미지 생성과 interleaved image generation을 지원하며, spatial reasoning과 visual grounding이 필요한 복잡한 시나리오에서 강력한 멀티모달 이해를 보인다. 다양한 text-to-image 및 단일/다중 이미지 편집 벤치마크에서 기존 SOTA를 일관되게 능가한다.
- #multimodal
- #diffusion
- #vlm
- #image-generation
- #image-editing
Zijie Li