Papers·어제
GRAIL: 가상 환경에서 인간-물체 상호작용 데이터 생성 — Unitree G1 픽업 84%, 계단 오르기 90% 성공

NVIDIA가 제안한 GRAIL은 물리 환경이나 텔레오퍼레이션 없이 3D 에셋과 비디오 파운데이션 모델(VFM)을 활용해 전적으로 가상에서 인간-물체 상호작용(HOI) 데이터를 생성하는 파이프라인입니다. 20,000개 이상의 시퀀스를 생성해 Unitree G1 휴머노이드 로봇에 sim-to-real 정책을 학습시킨 결과, 다양한 물체 픽업에서 84%, 계단 오르기에서 90%의 실제 성공률을 기록했습니다. 단, 모든 데이터가 가상 환경에서 생성되므로 현실의 물리적 특성(마찰, 변형 등)과의 괴리는 여전히 고려해야 할 점입니다.
NVIDIA가 가상 환경만으로 인간-물체 상호작용 데이터를 대량 생성해 휴머노이드 로봇을 학습시키는 GRAIL 파이프라인을 공개했습니다.
핵심 결론
- 태스크 — 휴머노이드 로코매니퓰레이션 — 물체 픽업, 앉기, 지형 이동 등.
- 성능 — Unitree G1 실환경 테스트: 픽업 84%, 계단 오르기 90% 성공률.
- 데이터 규모 — 20,000개 이상의 HOI 시퀀스 생성, 전적으로 가상 환경에서 합성.
방법
- 가상 파이프라인 — 3D 에셋과 시뮬레이터 장면을 구성한 뒤 VFM으로 비디오 생성, 4D 재구성으로 metric HOI 궤적을 추출.
- 프리비지드 설정 — 물체 형상, 카메라 파라미터, 환경 깊이, 로봇 비례 캐릭터를 사전에 지정해 깊이 모호성과 형태 불일치를 줄임.
- 리타겟팅 — 복원된 모션을 휴머노이드에 리타겟하고, 물체 인식 어댑터와 장면 인식 트래커를 별도 학습.
한계·조건
- 환경 차이 — 가상 데이터만 사용하므로 현실의 마찰, 변형, 조명 변화 등에 대한 강건성은 추가 검증이 필요합니다.
- 로봇 의존성 — Unitree G1에 특화된 리타겟팅 및 정책 — 다른 플랫폼으로의 일반화는 미확인.
- 코드 공개 — 현재 논문 및 추상만 공개, 코드 및 데이터셋 공개 여부는 미정.
편집자 한 줄
가상 데이터만으로 실물 로봇을 여기까지 끌어올린 점은 인상적이지만, 현실의 물리적 변이에 대한 내성이 어느 정도인지 후속 연구가 궁금하네요.
- #humanoid
- #sim-to-real
- #nvidia
- #g1
- #hoi
NVIDIA