Papers·어제
World Pilot: VLA에 World-Action Model 사전 지식 주입 — LIBERO-Plus OOD 84.7% 성공률

Zefu Lin 등이 제안한 World Pilot은 VLA 정책에 World-Action Model(WAM)의 사전 지식을 두 경로(Latent Steering, Action Steering)로 주입합니다. LIBERO-Plus zero-shot OOD 벤치마크에서 총 성공률 84.7%로 SOTA를 달성했으며, 네 가지 실제 로봇 태스크에서 시점·기하·변형·자세 변화에 가장 큰 마진으로 성공률을 기록했습니다. 단, WAM은 비디오 사전학습만으로도 효과적이지만, action post-training 없이도 scene-evolution prior를 제공할 수 있다는 점이 흥미롭습니다.
World Pilot은 VLA에 World-Action Model의 scene-evolution prior와 motion prior를 주입하여 OOD 조작 성능을 크게 향상시켰습니다.
핵심 결론
- 벤치마크 — LIBERO-Plus zero-shot OOD에서 총 성공률 84.7%로 SOTA.
- 실제 로봇 — 네 가지 태스크에서 시점·기하·변형·자세 변화에 가장 큰 마진으로 성공.
- 기여 — VLA에 WAM 사전 지식을 두 경로로 주입하는 프레임워크 제안.
방법
- Latent Steering — 인식 레이어를 scene-evolution latent로 조건화하여 미래 장면 변화를 예측.
- Action Steering — 예측된 궤적을 motion prior로 action generator에 공급.
- WAM — 비디오 사전학습만으로도 action post-training 없이 scene-evolution prior 제공 가능.
한계·조건
- 환경 — 실험은 LIBERO-Plus 시뮬레이터와 네 가지 실제 로봇 태스크에 국한.
- 재현성 — 코드와 모델 가중치는 프로젝트 페이지에서 공개 예정.
- 리소스 — VLA와 WAM 모두 대규모 사전학습 필요, 추론 시 두 모델을 함께 사용.
편집자 한 줄
WAM이 action post-training 없이도 scene prior를 제공할 수 있다는 점은 실제 로봇 데이터 수집 비용을 낮출 가능성을 시사합니다.
- #vla
- #world-model
- #robotics
- #zero-shot
- #liberoplus
Zefu Lin