← Back to feed
Papers·2일 전

InstructSAM: VLM과 SAM3를 연결한 지시 기반 다중 인스턴스 분할 — 2B 모델로 기존 방법 능가

InstructSAM: VLM과 SAM3를 연결한 지시 기반 다중 인스턴스 분할 — 2B 모델로 기존 방법 능가

InstructSAM은 임의 지시문에 따라 다중 인스턴스 분할을 수행하는 통합 프레임워크로, VLM과 SAM3를 명시적 추론-인스턴스 쿼리 인터페이스로 연결합니다. 학습 가능한 인스턴스 쿼리를 VLM에 주입하고 하이브리드 어텐션으로 중복을 줄여, 2B 규모에서도 기존 end-to-end 방식 및 SAM3 에이전트 파이프라인을 능가하는 성능을 보였습니다. 단, 대규모 데이터셋 Inst2Seg 구축에 상당한 주석 비용이 들었을 것으로 보입니다.

InstructSAM은 VLM과 SAM3를 연결해 임의 지시문으로 다중 인스턴스를 한 번에 분할하는 프레임워크입니다.

핵심 결론

  • 벤치RefCOCO/+, gRefCOCO, Inst2Seg 등 여러 벤치마크에서 기존 end-to-end 방식 및 SAM3 에이전트 파이프라인보다 높은 mAP를 기록.
  • 모델2B 규모의 InstructSAM이 10B 이상의 경쟁 모델과 비슷하거나 더 나은 성능을 보인 점이 특이합니다.

방법

  • 인터페이스VLM 내부에 학습 가능한 인스턴스 쿼리를 주입해, 지시문과 이미지 정보를 바탕으로 각 쿼리가 인스턴스 슬롯 역할을 하도록 설계.
  • 하이브리드 어텐션쿼리-시각-지시 토큰 간 상호작용을 촉진해 인스턴스 열거 정확도를 높이고 중복 예측을 줄입니다.
  • SAM3 연동LLM 조건화된 쿼리를 SAM3의 검출기 쿼리 공간에 투영해 단일 패스로 정확한 분할을 수행하며, SAM3 코어는 수정하지 않습니다.

한계·조건

  • 데이터Inst2Seg 데이터셋은 고품질이지만 구축 비용이 크며, 자유 형식 지시문의 다양성이 실제 환경을 얼마나 대표하는지는 추가 검증이 필요합니다.
  • 코드현재 Hugging Face 페이지에 abstract와 figure만 공개, 코드와 모델 가중치는 추후 공개 예정.

편집자 한 줄

VLM과 SAM을 깔끔하게 연결한 설계가 인상적이며, 2B 규모로 효율적인 점이 실용성 측면에서 돋보입니다.

  • #instructsam
  • #instance-segmentation
  • #vlm
  • #sam3
  • #multi-instance
Yuqian Yuan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —