Papers·1주 전
AuralSAM2: SAM2에 오디오 모달리티 통합 — 프롬프트 분할 정확도 향상

Oxford 팀이 SAM2에 오디오를 통합한 AuralSAM2를 제안했습니다. 핵심 모듈 AuralFuser는 오디오-비주얼 특징을 융합해 sparse/dense 프롬프트를 생성하며, 오디오 유도 contrastive loss로 정렬을 강화합니다. 공개 벤치마크에서 정확도가 크게 개선되었고, 프롬프트 분할의 상호작용 효율성은 거의 유지됩니다. 다만 기존 adapter 방식 대비 추론 오버헤드가 다소 증가할 수 있습니다.
- #audio-visual
- #segmentation
- #sam2
- #oxford
University of Oxford