Papers·1개월 전

UNC Chapel Hill, 전략적 비디오 지능 벤치마크 SVI-Bench 공개 — 인식 73% vs 에이전트 5%

UNC Chapel Hill 팀이 스포츠 중계 영상을 활용한 대규모 벤치마크 SVI-Bench를 공개했습니다. 인식(perception) 태스크에서는 73% 정확도를 보인 모델들이 인과 추론, 전략 시뮬레이션, 에이전트 태스크로 갈수록 급격히 성능이 떨어져, 가장 어려운 에이전트 태스크에서는 최고 모델도 5%에 그쳤습니다. 벤치마크는 농구·축구·하키의 35K시간 영상, 15M개 액션, 15K시간 해설, 23K 경기 리포트 등으로 구성되며, 9개 태스크가 4단계 계층(인식→인과→시뮬레이션→에이전트)으로 나뉩니다. 다만 스포츠 도메인에 특화되어 있어 일반 비디오 이해로의 일반화는 추가 검증이 필요합니다.

UNC Chapel Hill 팀이 스포츠를 미시세계로 삼아 인식부터 인과 추론, 전략 시뮬레이션, 에이전트 의사결정까지 평가하는 SVI-Bench를 공개했습니다.

핵심 결론

태스크 — 9개 태스크, 4단계 계층: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, Agentic Synthesis.
성능 격차 — 인식 태스크(세부 액션 QA)에서 73% 정확도를 보인 모델이 에이전트 태스크에서는 5%로 급락.
데이터 규모 — 35K시간 영상, 15M개 액션, 15K시간 해설, 23K 경기 리포트, 103K 통계 레코드.

방법

도메인 선택 — 팀 스포츠(농구·축구·하키)는 실제 멀티에이전트 상호작용(10~22명)과 명시적 규칙·확정적 결과를 결합해 검증 가능한 ground truth를 제공합니다.
데이터 엔진 — 원시 게임 데이터를 밀집된 교차 참조 코퍼스로 변환하는 데이터 엔진으로 구축.
벤치마크는 in-the-wild 영상의 검증 불가능 문제와 합성 환경의 현실성 부족을 동시에 해결하려는 설계입니다.

한계·조건

도메인 특화 — 스포츠 도메인에 최적화되어 있어 일반 비디오 이해로의 일반화는 추가 연구가 필요합니다.
에이전트 태스크 — 1.8M 클립 코퍼스에서 자율적으로 증거를 수집·통합해야 하는 난이도로, 현재 모델의 한계를 극명히 드러냅니다.
코드 공개 — 벤치마크 데이터와 평가 코드는 공개 예정이나 현재 시점에서는 abstract와 figure만 확인 가능합니다.

편집자 한 줄

인식과 고차원 추론 사이의 capability cliff를 정량적으로 보여준 점이 인상적입니다. 스포츠 도메인을 넘어 일반 비디오 에이전트로 확장될 수 있을지 지켜볼 만합니다.

#video-understanding
#benchmark
#causal-reasoning
#sports-ai
#unc-chapel-hill

University of North Carolina at Chapel Hill

원문 보기 →

UNC Chapel Hill, 전략적 비디오 지능 벤치마크 SVI-Bench 공개 — 인식 73% vs 에이전트 5%

핵심 결론

방법

한계·조건

Comments