Papers·2일 전
Adobe, MLLM과 VAE 결합으로 subject-driven 이미지 생성에서 정체성 보존 개선

Adobe 팀이 Multimodal Large Language Model(MLLM)과 VAE 기반 정체성 조건화를 결합해 subject-driven 이미지 생성에서 정체성 보존과 텍스트 명령 수행을 동시에 개선했습니다. 기존 방식은 텍스트와 참조 이미지를 분리 인코딩해 copy-paste 아티팩트가 발생했는데, 제안된 방법은 MLLM이 텍스트와 이미지를 공동 인코딩하고, VAE로 미세 디테일을 보강합니다. Dual Layer Aggregation(DLA) 모듈로 다중 레벨 MLLM 특징을 집계하고, 다단계 디노이징 전략으로 추론 시 균형을 맞춥니다. 인간 선호도 평가에서 기존 방법 대비 우수한 성능을 보였지만, 대규모 MLLM 의존도가 높아 추론 비용이 증가할 수 있습니다.
Adobe 연구진이 MLLM과 VAE를 결합해 subject-driven 이미지 생성에서 정체성 보존과 텍스트 명령 수행을 동시에 향상시킨 방법을 제안했습니다.
핵심 결론
- 태스크 — Subject-driven 이미지 생성 — 주어진 참조 이미지의 정체성을 유지하면서 텍스트 프롬프트에 따라 새로운 이미지를 합성합니다.
- 성능 — 인간 선호도 평가에서 기존 방법(IP-Adapter, DreamBooth 등) 대비 우위를 보였으며, copy-paste 아티팩트가 현저히 줄었습니다.
방법
- 공동 인코딩 — MLLM이 텍스트와 참조 이미지를 함께 인코딩해 크로스모달 추론 능력을 높입니다.
- VAE 조건화 — VAE 기반 정체성 조건화를 추가해 MLLM이 놓칠 수 있는 미세 디테일을 보존합니다.
- DLA 모듈 — Dual Layer Aggregation 모듈로 MLLM의 여러 레이어 특징을 최적 조건화에 활용합니다.
- 다단계 디노이징 — 추론 시 MLLM의 의미 정보와 VAE의 세부 정체성을 점진적으로 균형 맞추는 전략을 적용합니다.
한계·조건
- 리소스 — 대규모 MLLM을 사용하므로 추론 비용이 기존 경량 방법보다 높을 수 있습니다.
- 벤치마크 — 논문은 주로 정성적 평가와 인간 선호도에 의존하며, 정량적 메트릭(예: CLIP score, DINO score)은 보조적으로 제시됩니다.
- 코드 — 프로젝트 웹사이트는 공개되었으나 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
MLLM을 diffusion에 직접 조건화하는 흐름은 최근 트렌드인데, VAE로 정체성을 별도 보강한 점이 실용적으로 보입니다. 다만 추론 비용이 어느 정도인지 추가 확인이 필요하겠네요.
- #subject-driven-generation
- #multimodal-llm
- #vae
- #adobe
- #image-generation
Adobe