← Back to feed
Papers·1주 전

DiGSeg: 확산 모델을 일반화된 분할 학습기로 재구성 — 텍스트 조건 의미·개방형 어휘 분할에서 SOTA

DiGSeg: 확산 모델을 일반화된 분할 학습기로 재구성 — 텍스트 조건 의미·개방형 어휘 분할에서 SOTA

Haoxiao Wang 팀이 사전 학습된 확산 모델의 denoising trajectory가 품은 시각적 prior를 활용해 텍스트 조건 의미·개방형 어휘 분할을 수행하는 DiGSeg을 제안했습니다. 입력 이미지와 정답 마스크를 잠재 공간에 인코딩해 U-Net 조건으로 주고, CLIP 정렬 텍스트 경로를 다중 스케일로 주입해 임의 텍스트 프롬프트에 대응하는 구조화된 분할 마스크를 생성합니다. 표준 의미 분할 벤치마크에서 SOTA를 달성했으며, 의료·원격 탐사·농업 등 도메인 특화 수정 없이도 강한 개방형 어휘 일반화와 교차 도메인 전이를 보였습니다. 단, 대규모 사전 학습된 확산 모델을 기반으로 하므로 추론 비용이 상대적으로 높을 수 있습니다.

Haoxiao Wang

Comments

— 첫 댓글을 남겨보세요 —