Papers·1개월 전

VideoKR: 315K 비디오 추론 데이터셋 — SFT→GRPO 파이프라인으로 지식 집약적 추론 18% 개선

Lin Fu 팀이 비디오 이해의 지식·추론 능력을 강화하기 위해 315K 비디오 추론 예제로 구성된 대규모 훈련 코퍼스 VideoKR을 공개했습니다. 인간-인-더-루프 파이프라인으로 점진적 추론 난이도를 목표로 예제를 생성했으며, SFT→GRPO 파이프라인에서 기존 접근 대비 지식 집약적 비디오 추론에서 우위를 보였습니다. 단, 145K 비디오는 CC-라이선스 전문가 도메인에 한정되어 일반 도메인 일반화는 추가 검증이 필요합니다.

Lin Fu 팀이 비디오 추론의 지식·추론 능력을 목표로 한 대규모 데이터셋 VideoKR과 평가 벤치마크 VideoKR-Eval을 발표했습니다.

핵심 결론

데이터셋 — 315K 비디오 추론 예제, 145K CC-라이선스 전문가 도메인 비디오 포함.
벤치마크 — VideoKR-Eval: 전문가 주석, 텍스트 숏컷 없이 진정한 비디오 이해·지식 추론 요구.
성능 — SFT→GRPO 파이프라인에서 지식 집약적 비디오 추론에서 기존 접근 대비 우위, 일반 추론에서는 경쟁력 유지.

방법

생성 파이프라인 — 인간-인-더-루프, 스킬 지향적 예제 생성 — 점진적 추론 난이도, 난이도·다양성·신뢰성 보장.
CoT — 각 예제에 Chain-of-Thought rationale 포함.
훈련 — 표준 SFT 후 GRPO 강화학습 — 데이터 설계가 성능 향상의 핵심 동인임을 강조.

한계·조건

도메인 — 비디오는 CC-라이선스 전문가 도메인에 한정 — 일반 도메인 일반화는 추가 검증 필요.
리소스 — GRPO 훈련에 상당한 compute 필요 — 구체적 수치는 논문 참조.
공개 — 데이터셋과 벤치마크는 Hugging Face에 공개 예정.

편집자 한 줄

데이터 설계 자체를 강조한 점이 인상적이며, VideoKR-Eval의 전문가 주석은 기존 벤치마크의 텍스트 숏컷 문제를 해결하려는 시도로 보입니다.

#video-reasoning
#dataset
#knowledge-intensive
#grpo
#lin-fu

Lin Fu

원문 보기 →

VideoKR: 315K 비디오 추론 데이터셋 — SFT→GRPO 파이프라인으로 지식 집약적 추론 18% 개선

핵심 결론

방법

한계·조건

Comments