Papers·2일 전
MMDiff: 확산 트랜스포머를 멀티모달 생성 시스템으로 확장 — 동시에 이미지와 밀집 퍼셉션 생성

Oxford 팀이 확산 트랜스포머(DiT)의 잡음 제거 과정에서 계산된 퍼셉션 표현을 활용해 이미지와 함께 의미 분할, 깊이 추정 등 여러 밀집 퍼셉션 모달리티를 동시에 생성하는 MMDiff를 제안했습니다. 다중 타임스텝 특징 융합과 공간 가변 가중치가 핵심이며, 단일 타임스텝 대비 의미 분할 mIoU가 최대 28.7% 향상되었습니다. 단, 경량 디코더 헤드만 학습하므로 백본은 고정이며, 코드 공개 여부는 아직 확인되지 않았습니다.
Oxford 팀이 확산 트랜스포머의 잡음 제거 궤적에서 퍼셉션 정보를 추출해 이미지와 함께 여러 밀집 예측을 생성하는 프레임워크를 공개했습니다.
핵심 결론
- 태스크 — 의미 분할, 돌출 객체 검출, 깊이 추정에서 경량 디코더로 경쟁력 있는 성능.
- 개선폭 — 단일 타임스텝 대비 다중 타임스텝 융합으로 의미 분할 mIoU 최대 28.7% 향상.
- 비교 — DINOv3 같은 최신 인코더와 견줄 만하며, 상호 보완적임.
방법
- 핵심 아이디어 — 퍼셉션 정보가 잡음 제거 궤적을 따라 시간적으로 분포되어 있으며, 다중 타임스텝 특징을 공간별 가중치로 융합하는 것이 중요.
- 구조 — 고정된 DiT 백본 위에 경량 디코더 헤드를 추가, 백본은 학습하지 않음.
- 추가 기법 — 개념 기반 어텐션 추출로 해석 가능한 공간 가이드를 제공.
한계·조건
- 백본 — DiT 백본은 고정되어 있어 백본 자체의 표현력에 의존.
- 데이터 — 합성 데이터 생성에는 효과적이나, 실제 데이터와의 도메인 차이는 추가 검증 필요.
- 코드 — 코드 공개 여부는 논문에 명시되지 않음.
편집자 한 줄
확산 모델의 중간 표현을 활용하는 접근은 꾸준히 나오고 있는데, 여기서는 시간적 분포 특성을 체계적으로 분석한 점이 인상적입니다.
- #diffusion-transformer
- #multi-modal
- #perception
- #oxford
University of Oxford