Papers·어제
X-Stream: 다중 스트림 비디오 이해 벤치마크 — MLLM 성능 50% 수준에 그쳐

X-Stream은 932개 비디오, 4,220개 QA 쌍으로 구성된 최초의 다중 스트림 스트리밍 이해 벤치마크입니다. 최신 MLLM은 동시 스트림 처리에서 약 50% 점수에 머물며, 신호 다중화 이론 관점에서 현재 모델의 한계를 드러냈습니다. 다중 윈도우, 다중 뷰, 다중 디바이스 시나리오를 아우르는 11개 하위 태스크를 포함합니다.
실시간 스포츠 중계, 자율주행, 멀티스크린 협업 등 실제 응용은 지속적인 다중 스트림 상호작용을 요구하지만, 기존 벤치마크는 단일 스트림에 국한되어 있었습니다.
핵심 결론
- 벤치 — X-Stream은 932개 비디오, 4,220개 QA 쌍으로 구성된 최초의 다중 스트림 스트리밍 이해 벤치마크입니다.
- 성능 — 최신 MLLM은 동시 스트림 처리에서 약 50% 점수에 그쳐, 단일 스트림 대비 현저히 낮은 성능을 보였습니다.
- 태스크 — 다중 윈도우, 다중 뷰, 다중 디바이스 시나리오를 아우르는 11개 하위 태스크를 포함합니다.
방법
- 데이터 구축 — 이중 검증 파이프라인(dual-verification pipeline)을 도입해 단일 스트림에 과도하게 의존하지 않도록 QA를 구성했습니다.
- 이론적 프레임워크 — MLLM을 naive multiplexer로 개념화하고, 신호 다중화 이론(Signal Multiplexing Theory) 관점에서 성능을 체계적으로 평가했습니다.
한계·조건
- 온라인 추론 — 모든 실험은 온라인(스트리밍) 환경에서 진행되었으며, 오프라인 설정과 차이가 있을 수 있습니다.
- 범위 — 현재 벤치마크는 3개 시나리오(다중 윈도우/뷰/디바이스)에 한정되며, 더 다양한 멀티모달 조합은 추후 확장이 필요합니다.
- 코드 — 데이터셋과 평가 코드는 공개 예정이나 현재 시점에서는 abstract와 figure만 확인 가능합니다.
편집자 한 줄
다중 스트림 환경에서의 MLLM 성능이 예상보다 낮다는 점이 인상적입니다. 특히 'proactive ability'가 부족하다는 지적은 향후 에이전트 설계에 중요한 시사점을 줍니다.
- #multi-stream
- #video-understanding
- #benchmark
- #mllm
Peiwen Sun