Papers·3일 전
τ_0-World Model: 단일 비디오-액션 월드 모델로 로봇 조작의 예측·실행 통합

Pengfei Zhou 팀이 정책 학습, 비디오 예측, 액션 평가를 하나의 미래 예측 프레임워크에 통합한 τ_0-World Model (τ_0-WM)을 제안했습니다. 공유된 비디오 diffusion 백본 위에서 비디오 액션 모델과 액션 조건부 비디오 시뮬레이터를 결합해, 약 27,300시간의 실제 로봇 원격 조작 및 인간 비디오 데이터로 학습했습니다. 추론 시 테스트 타임 컴퓨테이션으로 액션 후보를 샘플링하고 재노이즈 일관성으로 순위를 매겨, 장기·정밀 조작 태스크에서 기존 베이스라인 대비 우수한 성능을 보였습니다.
로봇 조작을 위해 실행 전 미래 결과를 예측·평가하는 통합 비디오-액션 월드 모델 τ_0-WM이 공개되었습니다.
핵심 결론
- 태스크 — 장기·정밀 로봇 조작 태스크에서 기존 베이스라인 대비 우수한 성능.
- 데이터 — 약 27,300시간의 실제 로봇 원격 조작, UMI 스타일 상호작용, 에고센트릭 인간 비디오, 롤아웃/실패 궤적 포함.
방법
- 구조 — 공유된 비디오 diffusion 백본 위에 비디오 액션 모델과 액션 조건부 비디오 시뮬레이터를 통합.
- 비디오 액션 모델은 다중 뷰 관측, 언어 명령, 로봇 상태로부터 미래 시각 잠재와 연속 액션 청크를 공동 예측.
- 액션 조건부 비디오 시뮬레이터는 후보 액션 청크를 다중 뷰 미래로 롤아웃하고 밀집 태스크 진행 점수를 예측.
- 추론 — 테스트 타임 컴퓨테이션으로 액션 후보를 샘플링, 재노이즈 일관성으로 순위 매기고, 시뮬레이터 기반 정정으로 저품질 후보 개선.
한계·조건
- 데이터 — 대규모 실제 로봇 데이터(27,300시간) 필요로 재현성에 제약.
- 환경 — 다중 뷰 관측과 고성능 GPU 필요 — 추론 시 테스트 타임 컴퓨테이션 비용이 높을 수 있음.
- 코드 — 코드 공개 여부는 명시되지 않음.
편집자 한 줄
비디오 diffusion 기반 월드 모델이 로봇 조작에서도 효과를 보인 점은 흥미롭지만, 실제 환경에서의 추론 속도와 일반화 성능은 추가 검증이 필요해 보입니다.
- #robotic-manipulation
- #world-model
- #video-diffusion
- #action-model
- #pengfei-zhou
Pengfei Zhou