Papers·1개월 전

InstructSAM: VLM과 SAM3를 연결한 지시 기반 다중 인스턴스 분할 — 2B 모델로 기존 방법 능가

InstructSAM은 임의 지시문에 따라 다중 인스턴스 분할을 수행하는 통합 프레임워크로, VLM과 SAM3를 명시적 추론-인스턴스 쿼리 인터페이스로 연결합니다. 학습 가능한 인스턴스 쿼리를 VLM에 주입하고 하이브리드 어텐션으로 중복을 줄여, 2B 규모에서도 기존 end-to-end 방식 및 SAM3 에이전트 파이프라인을 능가하는 성능을 보였습니다. 단, 대규모 데이터셋 Inst2Seg 구축에 상당한 주석 비용이 들었을 것으로 보입니다.

InstructSAM은 VLM과 SAM3를 연결해 임의 지시문으로 다중 인스턴스를 한 번에 분할하는 프레임워크입니다.

핵심 결론

벤치 — RefCOCO/+, gRefCOCO, Inst2Seg 등 여러 벤치마크에서 기존 end-to-end 방식 및 SAM3 에이전트 파이프라인보다 높은 mAP를 기록.
모델 — 2B 규모의 InstructSAM이 10B 이상의 경쟁 모델과 비슷하거나 더 나은 성능을 보인 점이 특이합니다.

방법

인터페이스 — VLM 내부에 학습 가능한 인스턴스 쿼리를 주입해, 지시문과 이미지 정보를 바탕으로 각 쿼리가 인스턴스 슬롯 역할을 하도록 설계.
하이브리드 어텐션 — 쿼리-시각-지시 토큰 간 상호작용을 촉진해 인스턴스 열거 정확도를 높이고 중복 예측을 줄입니다.
SAM3 연동 — LLM 조건화된 쿼리를 SAM3의 검출기 쿼리 공간에 투영해 단일 패스로 정확한 분할을 수행하며, SAM3 코어는 수정하지 않습니다.

한계·조건

데이터 — Inst2Seg 데이터셋은 고품질이지만 구축 비용이 크며, 자유 형식 지시문의 다양성이 실제 환경을 얼마나 대표하는지는 추가 검증이 필요합니다.
코드 — 현재 Hugging Face 페이지에 abstract와 figure만 공개, 코드와 모델 가중치는 추후 공개 예정.

편집자 한 줄

VLM과 SAM을 깔끔하게 연결한 설계가 인상적이며, 2B 규모로 효율적인 점이 실용성 측면에서 돋보입니다.

#instructsam
#instance-segmentation
#vlm
#sam3
#multi-instance

Yuqian Yuan

원문 보기 →

InstructSAM: VLM과 SAM3를 연결한 지시 기반 다중 인스턴스 분할 — 2B 모델로 기존 방법 능가

핵심 결론

방법

한계·조건

Comments