Papers·4일 전
HumanNet: 100만 시간 인간 행동 비디오 데이터셋 — 로봇 데이터 없이도 VLM 성능 향상

HumanNet은 100만 시간 규모의 인간 중심 비디오 코퍼스로, 1인칭과 3인칭 시점을 모두 포함하며 세밀한 활동, 도구 사용, 장기 행동 등을 주석과 함께 제공합니다. Qwen VLM에 1000시간의 1인칭 비디오로 추가 학습한 결과, 100시간의 실제 로봇 데이터(Magic Cobot)로 학습한 것보다 더 나은 성능을 보여, 인간 비디오가 로봇 데이터의 확장 가능하고 비용 효율적인 대안이 될 수 있음을 시사합니다. 다만 이 검증은 고정된 검증 데이터셋에서의 ablation 결과로, 다양한 태스크로의 일반화는 추가 연구가 필요합니다.
- #embodied-ai
- #dataset
- #human-video
- #vision-language-action
- #humanet
Yufan Deng