Papers·2일 전
NYU, 사람 손 그립 데이터 100만 프레임 수집 — HUG 모델로 다양한 로봇 손에 제로샷 전이, 기존 대비 +23%

NYU 팀이 사람의 일상적인 물체 잡기 동작을 100만 프레임(27.8시간) 수집한 egocentric 데이터셋 1M-HUGs와, RGB-D 이미지에서 인간 그립을 생성하는 flow-matching 모델 HUG를 공개했습니다. HUG는 손목 위치·회전·MANO 손 포즈를 출력하며, 예측된 그립을 다양한 로봇 손에 retargeting해 제로샷으로 실제 환경에서 사용할 수 있습니다. 90개 미지 물체로 구성된 HUG-Bench에서 기존 베이스라인 대비 +23% (시뮬레이션) 및 +34% (실세계) 성능 향상을 보였습니다.
NYU 연구진이 사람의 자연스러운 물체 잡기 동작을 대규모로 수집하고, 이를 flow-matching 모델로 학습해 다양한 로봇 손에 제로샷 전이할 수 있는 HUG를 발표했습니다.
핵심 결론
- 벤치 — 90개 미지 물체 HUG-Bench에서 기존 최고 방법 대비 +23% (시뮬레이션), +34% (실세계) 성능.
- 데이터 — 1M-HUGs: 41개 건물, 6,707개 물체 인스턴스, 100만 프레임의 egocentric 인간 그립 데이터.
- 전이 — 예측된 MANO 손 포즈를 다양한 로봇 손(예: Allegro, Shadow)에 retargeting하여 제로샷 그립 가능.
방법
- 모델 — Flow-matching 모델로 RGB-D 이미지에서 wrist translation, wrist rotation, MANO hand pose를 출력.
- 데이터 수집 — 스마트 글라스(stereo camera)를 착용한 사람이 일상 환경에서 물체를 집는 영상을 녹화.
- 재현성 — 코드, 데이터, 벤치마크, 체크포인트, 인터랙티브 데모 모두 공개.
한계·조건
- 환경 — 실세계 평가는 30개 물체에 대해 여러 스테레오 카메라와 로봇, 가정 환경에서 수행.
- 의존성 — MANO 손 모델 기반이므로 손가락 관절이 많은 로봇 손에 retargeting 시 추가 최적화 필요 가능.
- 범위 — 데이터셋은 41개 건물로 제한적이며, 다양한 물체 재질이나 변형체에 대한 일반화는 추가 검증 필요.
편집자 한 줄
인간의 자연스러운 그립 데이터를 대규모로 수집한 점과, flow-matching으로 다양한 로봇 손에 일반화한 점이 인상적입니다. 다만 실제 로봇에 적용할 때 retargeting 과정에서의 손실이 어느 정도인지 후속 연구가 필요해 보입니다.
- #grasping
- #human-dataset
- #flow-matching
- #nyu
- #robotics
New York University