Papers·1주 전
SWIM: 텍스트 프롬프트만으로 세밀한 객체 이해 — 마스크 없이도 가능한 정렬 훈련 전략

TongyiLab 연구팀이 텍스트 프롬프트만으로 세밀한 객체 이해를 가능하게 하는 SWIM 훈련 전략을 제안했습니다. 기존 방법이 마스크나 포인트 같은 시각적 프롬프트를 요구하는 반면, SWIM은 훈련 시에만 마스크를 사용해 cross-modal attention을 가이드하고 추론 시에는 텍스트만으로 객체를 주목하게 합니다. 핵심은 속성 단어는 시각적으로 날카롭게 활성화되는 반면 객체 명사는 분산된 패턴을 보이는 사전학습 MLLM의 불일치를 해소한 점입니다. NL-Refer 데이터셋을 구축하고 multi-layer cross-attention 맵을 정답 마스크와 정렬해 fine-grained 객체 이해 벤치마크에서 시각적 프롬프트 기반 방법을 능가했습니다. 코드와 데이터는 공개되었습니다.
- #multimodal
- #alignment
- #object-understanding
- #tongyilab
TongyiLab