Papers·1주 전
X2SAM: 이미지와 비디오를 아우르는 통합 세그멘테이션 MLLM

Sun Yat-sen University 연구팀이 이미지와 비디오 모두에서 텍스트 및 시각적 프롬프트로 세그멘테이션을 수행하는 통합 MLLM, X2SAM을 공개했습니다. LLM과 Mask Memory 모듈을 결합해 시간적으로 일관된 비디오 마스크를 생성하며, 기존 이미지 세그멘테이션 성능을 유지하면서도 비디오에서 경쟁력 있는 결과를 보여줍니다. 새로 도입된 V-VGD 벤치마크는 비디오 내 객체 트랙을 시각적 프롬프트로 분할하는 능력을 평가합니다. 단, 다양한 데이터셋의 통합 학습이 필요해 학습 리소스가 상당할 수 있습니다.
- #multimodal
- #segmentation
- #mllm
- #video
- #samsung
Sun Yat-sen University