Papers·어제
NYU, MLLM 시각적 상태 추적 진단 벤치마크 VSTAT 공개 — 인간 대비 40%p 격차

NYU 팀이 MLLM의 연속적 시각 상태 추적 능력을 진단하는 벤치마크 VSTAT를 공개했습니다. 834개 클립과 1,500개 질문으로 구성되며, 단일 프레임이나 짧은 구간으로는 답할 수 없도록 설계되었습니다. 최신 MLLM은 인간 대비 크게 뒤쳐지며, 답변 사전 분포 기반 베이스라인보다 약간 나은 수준에 그쳤습니다. 분석 결과, MLLM은 텍스트 추론은 잘하지만 필요한 시각적 사건을 인지하는 데 실패하는 것이 주요 원인으로 밝혀졌습니다.
NYU 팀이 MLLM의 연속적 시각 상태 추적 능력을 진단하는 벤치마크 VSTAT를 공개했습니다.
핵심 결론
- 벤치마크 — VSTAT는 834개 클립, 1,500개 질문으로 구성. 단일 프레임이나 짧은 구간으로 답할 수 없어 연속적 인식과 통합을 요구합니다.
- 성능 — 최신 MLLM(GPT-4V, Gemini Pro 등)은 인간 대비 40%p 이상 낮은 정확도를 보였고, 답변 사전 분포 기반 베이스라인보다 약간 나은 수준입니다.
방법
- 데이터 — 합성 및 실제 비디오에서 추출한 클립을 사용. 질문은 객체 상태 변화, 이벤트 순서, 지속적 속성 추적 등을 포함합니다.
- 분석 — MLLM의 thinking trace를 비디오 스트림과 비교한 결과, 텍스트 추론은 정확하지만 시각적 인지 단계에서 실패하는 패턴이 확인되었습니다.
한계·조건
- 에이전트 — 최신 MLLM 기반 비디오 에이전트나 코딩 에이전트도 VSTAT에서 유의미한 개선을 보이지 못했습니다.
- 코드 — 벤치마크 데이터와 평가 코드는 공개 예정입니다.
편집자 한 줄
단일 프레임 인식이 아닌 시간적 추적을 요구한다는 점에서 기존 비디오 벤치마크와 차별화되네요. MLLM의 시각적 인지 한계를 구체적으로 드러낸 유용한 진단 도구입니다.
- #mllm
- #video-understanding
- #benchmark
- #state-tracking
- #nyu
VISIONx @ NYU