Papers·1주 전
RepFusion: MLLM을 노이즈 표현 인코더로 재활용해 T2I 성능 향상

Meta AI의 RepFusion은 기존 MLLM의 MLP 프로젝터를 노이즈 표현 인코더로 확장해, diffusion transformer의 조건 신호로 사용합니다. 동일 추론 예산에서 새로 초기화된 디노이저보다 우수한 성능을 보였으며, 반복적인 MLLM 조건화가 테스트 시간 컴퓨팅을 효과적으로 활용함을 입증했습니다.
RepFusion은 MLLM을 노이즈 표현 인코더로 재활용해 T2I 성능을 높인 접근법입니다.
핵심 결론
- 벤치 — 동일 추론 예산에서 새로 초기화된 디노이저 기반 베이스라인을 능가했습니다.
- 모델 — MLLM의 MLP 프로젝터를 노이즈 입력에도 적용 가능하도록 확장한 것이 핵심입니다.
방법
- 아이디어 — 기존 MLLM이 깨끗한 시각 표현을 정렬하던 방식을 노이즈 표현에도 적용, MLLM 자체를 노이즈 표현 인코더로 사용합니다.
- MLLM 출력을 diffusion transformer의 조건 신호로 활용하며, 반복적인 조건화를 통해 테스트 시간 컴퓨팅을 효율적으로 사용합니다.
한계·조건
- 비교 — 통제 비교는 동일 추론 예산에서 수행되었으며, 실제 배포 환경에서의 추가 이점은 검증되지 않았습니다.
- 코드 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
MLLM을 디노이징 파이프라인에 통합하는 아이디어는 간단하지만, 반복 조건화의 수확 체감 지점을 추가로 분석할 필요가 있어 보입니다.
- #text-to-image
- #diffusion
- #mllm
- #meta
AI at Meta