Papers·2일 전
ByteDance, One-to-Many Temporal Grounding 벤치마크 및 보상 함수 제안 — EtF1 43.65%로 Gemini 2.5 Pro 대비 15.85% 향상

ByteDance 팀이 하나의 텍스트 질의로 여러 개의 비연속 비디오 구간을 찾는 One-to-Many Temporal Grounding (OMTG) 문제를 체계적으로 다뤘습니다. 56k 샘플 데이터셋과 새로운 평가 지표(Count Accuracy, Effective Temporal F1)를 구축하고, 밀집 비디오 캡션 기반 Chain-of-Thought 추론을 활용한 보상 함수로 기존 MLLM의 한계를 극복했습니다. OMTG Bench에서 EtF1 43.65%를 기록해 Gemini 2.5 Pro와 Seed-1.8을 각각 15.85%, 15.61% 앞섰습니다.
ByteDance 팀이 하나의 질의로 여러 개의 비디오 구간을 찾는 One-to-Many Temporal Grounding 문제를 위한 벤치마크와 보상 함수를 제안했습니다.
핵심 결론
- 태스크 — 하나의 텍스트 질의로 여러 개의 비연속 비디오 구간을 동시에 찾는 OMTG 설정을 정의.
- 벤치마크 — OMTG Bench를 구축하고 Count Accuracy(C-Acc)와 Effective Temporal F1(EtF1)을 새 평가 지표로 도입.
- 성능 — OMTG Bench에서 EtF1 43.65%로 Gemini 2.5 Pro(27.8%) 및 Seed-1.8(28.04%) 대비 큰 폭 향상.
방법
- 데이터셋 — 56k 샘플의 고품질 OMTG 데이터셋을 정교한 파이프라인으로 구축.
- 보상 함수 — 시간적 정확성과 캡션 완전성을 위한 두 가지 보상 함수 설계. 캡션 보상은 밀집 비디오 캡션에 Chain-of-Thought 추론을 적용해 정책 최적화를 유도.
- 기존 한계 — 기존 MLLM은 이벤트 개수 인식(cardinality perception)이 부족해 OMTG에서 거의 0점에 가까운 성능을 보였음.
한계·조건
- 벤치 범위 — OMTG Bench의 구체적인 비디오 도메인과 질의 다양성은 논문에서 상세히 기술되지 않았습니다.
- 재현성 — 데이터셋과 코드 공개 여부는 아직 확인되지 않았습니다.
편집자 한 줄
기존 TG 연구가 단일 구간에 집중한 반면, 현실의 복잡한 질의(예: '모든 골 장면')를 반영한 점이 실용적입니다. 다만 벤치마크의 규모와 일반화 가능성은 추가 검증이 필요해 보입니다.
- #temporal-grounding
- #video-understanding
- #multimodal
- #byteDance
- #reinforcement-learning
ByteDance