Papers·4일 전
Adobe Research, 텍스트와 클릭 모두로 객체·재질 선택 가능한 통합 세그멘테이션 모델 MAOAM 공개

Adobe Research 팀이 텍스트와 클릭 기반 상호작용을 모두 지원하며 객체뿐 아니라 재질(material) 수준의 선택도 가능한 통합 세그멘테이션 프레임워크 MAOAM을 발표했습니다. VLM에 세그멘테이션 헤드를 붙여 사용자 의도를 해석하고 픽셀 단위 마스크를 생성하며, 재질 선택용 텍스트 주석 데이터 부족 문제를 해결하기 위해 합성 이미지와 VLM을 활용한 데이터 생성 파이프라인을 제안했습니다. 단일 모달 프롬프트로 학습했음에도 추론 시 텍스트와 클릭을 결합하면 선택 정확도가 향상되는 emergent 특성을 보입니다.
Adobe Research가 객체와 재질을 텍스트 또는 클릭 하나로 선택할 수 있는 통합 세그멘테이션 모델 MAOAM을 공개했습니다.
핵심 결론
- 태스크 — 텍스트 및 클릭 기반 상호작용으로 객체와 재질 수준의 픽셀 단위 선택.
- 성능 — 다양한 객체·재질·상호작용 시나리오에서 정확하고 일관된 마스크 생성.
- 특이점 — 단일 모달 프롬프트로 학습했으나 추론 시 텍스트+클릭 결합 시 성능 향상.
방법
- 아키텍처 — VLM에 세그멘테이션 헤드를 추가, 사용자 의도(객체/재질)를 해석하고 출력 토큰을 마스크로 디코딩.
- 데이터 생성 — 실제 및 합성 이미지에 재질 마스크를 수집하고 VLM으로 풍부한 시각-의미론적 재질 설명을 생성하는 파이프라인 제안.
- 학습 — 클릭·텍스트 선택에 대한 멀티태스크 손실과 재질 설명 기반 보조 VQA 태스크로 재질 이해 심화.
한계·조건
- 데이터 — 재질 선택 데이터셋의 텍스트 주석 부족을 합성 데이터로 보완했으나 실제 다양성 반영 한계 존재.
- 공개 — 코드 및 모델 공개 여부는 논문에 명시되지 않음.
편집자 한 줄
재질 선택을 위한 데이터 생성 파이프라인이 실용적이어서, 향후 재질 기반 편집 도구에 바로 활용될 가능성이 높습니다.
- #segmentation
- #vlm
- #material
- #adobe
- #image-editing
Adobe Research