← Back to feed
Papers·2일 전

ByteDance, One-to-Many Temporal Grounding 벤치마크 및 보상 함수 제안 — EtF1 43.65%로 Gemini 2.5 Pro 대비 15.85% 향상

ByteDance, One-to-Many Temporal Grounding 벤치마크 및 보상 함수 제안 — EtF1 43.65%로 Gemini 2.5 Pro 대비 15.85% 향상

ByteDance 팀이 하나의 텍스트 질의로 여러 개의 비연속 비디오 구간을 찾는 One-to-Many Temporal Grounding (OMTG) 문제를 체계적으로 다뤘습니다. 56k 샘플 데이터셋과 새로운 평가 지표(Count Accuracy, Effective Temporal F1)를 구축하고, 밀집 비디오 캡션 기반 Chain-of-Thought 추론을 활용한 보상 함수로 기존 MLLM의 한계를 극복했습니다. OMTG Bench에서 EtF1 43.65%를 기록해 Gemini 2.5 Pro와 Seed-1.8을 각각 15.85%, 15.61% 앞섰습니다.

ByteDance 팀이 하나의 질의로 여러 개의 비디오 구간을 찾는 One-to-Many Temporal Grounding 문제를 위한 벤치마크와 보상 함수를 제안했습니다.

핵심 결론

  • 태스크하나의 텍스트 질의로 여러 개의 비연속 비디오 구간을 동시에 찾는 OMTG 설정을 정의.
  • 벤치마크OMTG Bench를 구축하고 Count Accuracy(C-Acc)와 Effective Temporal F1(EtF1)을 새 평가 지표로 도입.
  • 성능OMTG Bench에서 EtF1 43.65%로 Gemini 2.5 Pro(27.8%) 및 Seed-1.8(28.04%) 대비 큰 폭 향상.

방법

  • 데이터셋56k 샘플의 고품질 OMTG 데이터셋을 정교한 파이프라인으로 구축.
  • 보상 함수시간적 정확성과 캡션 완전성을 위한 두 가지 보상 함수 설계. 캡션 보상은 밀집 비디오 캡션에 Chain-of-Thought 추론을 적용해 정책 최적화를 유도.
  • 기존 한계기존 MLLM은 이벤트 개수 인식(cardinality perception)이 부족해 OMTG에서 거의 0점에 가까운 성능을 보였음.

한계·조건

  • 벤치 범위OMTG Bench의 구체적인 비디오 도메인과 질의 다양성은 논문에서 상세히 기술되지 않았습니다.
  • 재현성데이터셋과 코드 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

기존 TG 연구가 단일 구간에 집중한 반면, 현실의 복잡한 질의(예: '모든 골 장면')를 반영한 점이 실용적입니다. 다만 벤치마크의 규모와 일반화 가능성은 추가 검증이 필요해 보입니다.

  • #temporal-grounding
  • #video-understanding
  • #multimodal
  • #byteDance
  • #reinforcement-learning
ByteDance
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —