Papers·1개월 전

X2SAM: 이미지와 비디오를 아우르는 통합 세그멘테이션 MLLM

Sun Yat-sen University 연구팀이 이미지와 비디오 모두에서 텍스트 및 시각적 프롬프트로 세그멘테이션을 수행하는 통합 MLLM, X2SAM을 공개했습니다. LLM과 Mask Memory 모듈을 결합해 시간적으로 일관된 비디오 마스크를 생성하며, 기존 이미지 세그멘테이션 성능을 유지하면서도 비디오에서 경쟁력 있는 결과를 보여줍니다. 새로 도입된 V-VGD 벤치마크는 비디오 내 객체 트랙을 시각적 프롬프트로 분할하는 능력을 평가합니다. 단, 다양한 데이터셋의 통합 학습이 필요해 학습 리소스가 상당할 수 있습니다.

#multimodal
#segmentation
#mllm
#video
#samsung

Sun Yat-sen University

원문 보기 →

X2SAM: 이미지와 비디오를 아우르는 통합 세그멘테이션 MLLM

Comments