Papers·1개월 전

VideoSeeker: 시각적 프롬프트로 인스턴스 수준 비디오 이해 — GPT-4o 대비 +13.7%

VideoSeeker는 텍스트 프롬프트 대신 시각적 프롬프트(박스, 마스크 등)를 활용해 인스턴스 수준의 시공간적 이해를 수행하는 LVLM 패러다임입니다. 에이전트 추론과 도구 호출을 내재화하여 모델이 능동적으로 관련 비디오 구간을 검색·추론하며, GPT-4o와 Gemini-2.5-Pro를 포함한 폐쇄형 모델을 능가하는 성능을 보였습니다. 4단계 자동 데이터 합성 파이프라인과 RL 훈련이 핵심이지만, 데이터셋 규모와 재현성은 코드 공개 후 확인 가능합니다.

#video-understanding
#lvlm
#visual-prompt
#agentic-reasoning
#huggingface

Yiming Zhao

원문 보기 →

VideoSeeker: 시각적 프롬프트로 인스턴스 수준 비디오 이해 — GPT-4o 대비 +13.7%

Comments