Papers·2주 전
OmniInteract: 실시간 오디오-비디오 스트리밍 QA 벤치마크 — 최고 IA-QTF1 0.368

OmniInteract는 오디오-비디오 스트림을 온라인으로 처리하며 사용자 질문과 주변 소리를 실시간으로 감지하고 응답해야 하는 스트리밍 벤치마크입니다. 250개 비디오에 1,430개의 시간 기반 응답 슬롯이 포함되며, 최고 모델의 IA-QTF1은 0.368에 불과해 현재 모델의 스트리밍 상호작용 능력이 매우 취약함을 보여줍니다. 코드와 데이터셋은 공개 예정입니다.
OmniInteract는 실시간 오디오-비디오 스트리밍 환경에서 대규모 언어 모델의 온라인 추론 능력을 평가하는 벤치마크입니다.
핵심 결론
- 성능 — 최고 모델의 종합 IA-QTF1이 0.368, 1QnA IA-QTF1은 0.052로 매우 낮습니다.
- 태스크 — 실시간, 사전 대응, 중첩 시나리오 등 1,062개의 1Q1A 슬롯과 368개의 1QnA 슬롯으로 구성됩니다.
방법
- 스트리밍 평가 — 원본 오디오-비디오 스트림을 온라인으로 처리하며, 미래 내용에 접근할 수 없습니다.
- 메트릭 — 응답 정확도, 타이밍, 무효 출력, 중단 처리, 맥락 연속성을 평가하는 IA-QTF1, Interruption Diagnostic Suite, Nested Chain Completion Score를 도입했습니다.
한계·조건
- 데이터 — 250개 비디오로 구성되어 있으며, 다양한 도메인을 포함하지만 규모가 작은 편입니다.
- 코드 — 데이터셋과 코드는 GitHub에 공개 예정입니다.
편집자 한 줄
수학 추론 실험에서 오프라인 능력이 온라인 상호작용으로 전이되지 않는다는 점이 특히 흥미롭네요.
- #omnimodal
- #streaming
- #benchmark
- #real-time
- #qa
Xudong Lu