← Back to feed
Papers·어제

World Pilot: VLA에 World-Action Model 사전 지식 주입 — LIBERO-Plus OOD 84.7% 성공률

World Pilot: VLA에 World-Action Model 사전 지식 주입 — LIBERO-Plus OOD 84.7% 성공률

Zefu Lin 등이 제안한 World Pilot은 VLA 정책에 World-Action Model(WAM)의 사전 지식을 두 경로(Latent Steering, Action Steering)로 주입합니다. LIBERO-Plus zero-shot OOD 벤치마크에서 총 성공률 84.7%로 SOTA를 달성했으며, 네 가지 실제 로봇 태스크에서 시점·기하·변형·자세 변화에 가장 큰 마진으로 성공률을 기록했습니다. 단, WAM은 비디오 사전학습만으로도 효과적이지만, action post-training 없이도 scene-evolution prior를 제공할 수 있다는 점이 흥미롭습니다.

World Pilot은 VLA에 World-Action Model의 scene-evolution prior와 motion prior를 주입하여 OOD 조작 성능을 크게 향상시켰습니다.

핵심 결론

  • 벤치마크LIBERO-Plus zero-shot OOD에서 총 성공률 84.7%로 SOTA.
  • 실제 로봇네 가지 태스크에서 시점·기하·변형·자세 변화에 가장 큰 마진으로 성공.
  • 기여VLA에 WAM 사전 지식을 두 경로로 주입하는 프레임워크 제안.

방법

  • Latent Steering인식 레이어를 scene-evolution latent로 조건화하여 미래 장면 변화를 예측.
  • Action Steering예측된 궤적을 motion prior로 action generator에 공급.
  • WAM비디오 사전학습만으로도 action post-training 없이 scene-evolution prior 제공 가능.

한계·조건

  • 환경실험은 LIBERO-Plus 시뮬레이터와 네 가지 실제 로봇 태스크에 국한.
  • 재현성코드와 모델 가중치는 프로젝트 페이지에서 공개 예정.
  • 리소스VLA와 WAM 모두 대규모 사전학습 필요, 추론 시 두 모델을 함께 사용.

편집자 한 줄

WAM이 action post-training 없이도 scene prior를 제공할 수 있다는 점은 실제 로봇 데이터 수집 비용을 낮출 가능성을 시사합니다.

  • #vla
  • #world-model
  • #robotics
  • #zero-shot
  • #liberoplus
Zefu Lin
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —