← Back to feed
Papers·2주 전

OmniInteract: 실시간 오디오-비디오 스트리밍 QA 벤치마크 — 최고 IA-QTF1 0.368

OmniInteract: 실시간 오디오-비디오 스트리밍 QA 벤치마크 — 최고 IA-QTF1 0.368

OmniInteract는 오디오-비디오 스트림을 온라인으로 처리하며 사용자 질문과 주변 소리를 실시간으로 감지하고 응답해야 하는 스트리밍 벤치마크입니다. 250개 비디오에 1,430개의 시간 기반 응답 슬롯이 포함되며, 최고 모델의 IA-QTF1은 0.368에 불과해 현재 모델의 스트리밍 상호작용 능력이 매우 취약함을 보여줍니다. 코드와 데이터셋은 공개 예정입니다.

OmniInteract는 실시간 오디오-비디오 스트리밍 환경에서 대규모 언어 모델의 온라인 추론 능력을 평가하는 벤치마크입니다.

핵심 결론

  • 성능최고 모델의 종합 IA-QTF1이 0.368, 1QnA IA-QTF1은 0.052로 매우 낮습니다.
  • 태스크실시간, 사전 대응, 중첩 시나리오 등 1,062개의 1Q1A 슬롯과 368개의 1QnA 슬롯으로 구성됩니다.

방법

  • 스트리밍 평가원본 오디오-비디오 스트림을 온라인으로 처리하며, 미래 내용에 접근할 수 없습니다.
  • 메트릭응답 정확도, 타이밍, 무효 출력, 중단 처리, 맥락 연속성을 평가하는 IA-QTF1, Interruption Diagnostic Suite, Nested Chain Completion Score를 도입했습니다.

한계·조건

  • 데이터250개 비디오로 구성되어 있으며, 다양한 도메인을 포함하지만 규모가 작은 편입니다.
  • 코드데이터셋과 코드는 GitHub에 공개 예정입니다.

편집자 한 줄

수학 추론 실험에서 오프라인 능력이 온라인 상호작용으로 전이되지 않는다는 점이 특히 흥미롭네요.

  • #omnimodal
  • #streaming
  • #benchmark
  • #real-time
  • #qa
Xudong Lu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —