← Back to feed
Papers·2일 전

VideoKR: 315K 비디오 추론 데이터셋 — SFT→GRPO 파이프라인으로 지식 집약적 추론 18% 개선

VideoKR: 315K 비디오 추론 데이터셋 — SFT→GRPO 파이프라인으로 지식 집약적 추론 18% 개선

Lin Fu 팀이 비디오 이해의 지식·추론 능력을 강화하기 위해 315K 비디오 추론 예제로 구성된 대규모 훈련 코퍼스 VideoKR을 공개했습니다. 인간-인-더-루프 파이프라인으로 점진적 추론 난이도를 목표로 예제를 생성했으며, SFT→GRPO 파이프라인에서 기존 접근 대비 지식 집약적 비디오 추론에서 우위를 보였습니다. 단, 145K 비디오는 CC-라이선스 전문가 도메인에 한정되어 일반 도메인 일반화는 추가 검증이 필요합니다.

Lin Fu 팀이 비디오 추론의 지식·추론 능력을 목표로 한 대규모 데이터셋 VideoKR과 평가 벤치마크 VideoKR-Eval을 발표했습니다.

핵심 결론

  • 데이터셋315K 비디오 추론 예제, 145K CC-라이선스 전문가 도메인 비디오 포함.
  • 벤치마크VideoKR-Eval: 전문가 주석, 텍스트 숏컷 없이 진정한 비디오 이해·지식 추론 요구.
  • 성능SFT→GRPO 파이프라인에서 지식 집약적 비디오 추론에서 기존 접근 대비 우위, 일반 추론에서는 경쟁력 유지.

방법

  • 생성 파이프라인인간-인-더-루프, 스킬 지향적 예제 생성 — 점진적 추론 난이도, 난이도·다양성·신뢰성 보장.
  • CoT각 예제에 Chain-of-Thought rationale 포함.
  • 훈련표준 SFT 후 GRPO 강화학습 — 데이터 설계가 성능 향상의 핵심 동인임을 강조.

한계·조건

  • 도메인비디오는 CC-라이선스 전문가 도메인에 한정 — 일반 도메인 일반화는 추가 검증 필요.
  • 리소스GRPO 훈련에 상당한 compute 필요 — 구체적 수치는 논문 참조.
  • 공개데이터셋과 벤치마크는 Hugging Face에 공개 예정.

편집자 한 줄

데이터 설계 자체를 강조한 점이 인상적이며, VideoKR-Eval의 전문가 주석은 기존 벤치마크의 텍스트 숏컷 문제를 해결하려는 시도로 보입니다.

  • #video-reasoning
  • #dataset
  • #knowledge-intensive
  • #grpo
  • #lin-fu
Lin Fu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —