Papers·1개월 전

MVEB: 23개 태스크 비디오 임베딩 벤치마크 — MLLM 기반 임베딩이 분류·QA 우위, 오디오 기여는 데이터 주석 원천에 따라 6점 차이

Massive Video Embedding Benchmark (MVEB) 팀이 23개 태스크로 구성된 비디오 임베딩 벤치마크를 공개했습니다. 33개 모델을 평가한 결과, MLLM 기반 임베딩이 분류·클러스터링·QA에서, 멀티모달 바인딩이 검색·제로샷 분류에서 우위를 보였습니다. 오디오의 기여는 데이터셋 주석 원천에 따라 6%p 차이가 났는데, 시각+청각으로 주석된 데이터에서는 도움이 되고 시각만으로 주석된 데이터에서는 오히려 성능을 떨어뜨렸습니다. MVEB는 184개 태스크 풀에서 추려졌으며 MTEB 생태계에 통합됩니다.

비디오 임베딩 모델을 23개 태스크로 평가하는 MVEB 벤치마크가 공개되었습니다. 33개 모델 중 단일 우승자는 없고, 태스크 유형에 따라 강점이 갈렸습니다.

핵심 결론

태스크 구성 — 분류, 제로샷 분류, 클러스터링, 쌍 분류, 검색, 비디오 QA 등 23개 태스크.
최고 성능 — MLLM 기반 임베딩이 분류·클러스터링·쌍 분류·QA에서 우위; 멀티모달 바인딩이 검색·제로샷 분류에서 우위.
오디오 영향 — 오디오 포함 여부에 따른 평가에서, 오디오는 시각+청각 주석 데이터셋에서 성능을 높이고 시각 단독 주석 데이터셋에서는 낮추는 경향이 일관됨 (6%p 차이).

방법

벤치마크 설계 — MVEB는 184개 태스크 풀(MVEB+)에서 태스크 다양성을 유지하며 평가 비용을 줄이기 위해 23개를 선별.
통합 — MTEB 생태계에 통합되어 텍스트·이미지·오디오·비디오 임베딩을 통합 평가 가능.
생성형 MLLM은 대조적 적응 없이 교차 모달 태스크에서 붕괴 현상을 보였습니다.

한계·조건

데이터 — 오디오 기여 분석은 데이터셋 주석 원천에 의존적이며, 모든 비디오 태스크에 일반화되지는 않습니다.
공개 — MVEB 및 MVEB+의 모든 184개 태스크, 코드, 리더보드가 GitHub에 공개되었습니다.

편집자 한 줄

비디오 임베딩 평가의 표준화를 위한 의미 있는 시도입니다. 오디오 기여가 데이터 주석 방식에 따라 달라진다는 점은 실제 서비스에서 모달리티 선택 시 고려할 요소를 제공합니다.

#video-embedding
#benchmark
#mllm
#mteb

Massive Text Embedding Benchmark

원문 보기 →

MVEB: 23개 태스크 비디오 임베딩 벤치마크 — MLLM 기반 임베딩이 분류·QA 우위, 오디오 기여는 데이터 주석 원천에 따라 6점 차이

핵심 결론

방법

한계·조건

Comments