Papers·1개월 전

μ_0: 3D 궤적 예측 기반 확장 가능한 월드 모델 — 행동 레이블 없이도 VLA 수준 성능

UC Berkeley 팀이 3D 궤적(trace) 예측을 통해 행동 레이블 없이도 확장 가능한 월드 모델 μ_0를 제안했습니다. 픽셀 수준 비디오 모델이나 직접 행동 예측 대신, 물체·도구·손 등의 상호작용 점에 대한 부드러운 3D 궤적을 예측하는 방식으로, embodiment에 구애받지 않는 표현을 학습합니다. TraceExtract 시스템으로 다양한 비디오에서 자동으로 3D 지도 데이터를 추출해 사전학습한 결과, 2D/3D 궤적 예측에서 기존 모델을 능가했으며, 행동 레이블 없이 사전학습된 정책이 π_0 등 VLA 모델과 경쟁할 만한 성능을 보였습니다.

물리적 변화를 예측하는 월드 모델은 행동 레이블 없이도 로봇 학습을 확장할 수 있게 해줍니다.

핵심 결론

태스크 — 다양한 비디오에서 3D 궤적 예측을 통해 사전학습된 월드 모델 μ_0를 제안.
성능 — 2D/3D 궤적 예측에서 기존 trace 예측 모델 및 토큰화된 VLM 방법보다 우수.
다운스트림 — μ_0를 고정한 채 행동 expert와 결합한 정책이 π_0 등 VLA 모델과 경쟁 수준의 성능을 달성.

방법

표현 — 픽셀 대신 3D 궤적을 예측 — 물체·도구·손·접촉 영역 등 상호작용 점의 부드러운 3D 경로를 forecasting.
TraceExtract — 자동으로 3D 지도 데이터를 추출하는 시스템: 키포인트 선택, 전역 정렬된 궤적 구성, 계층적 언어 캡션과 motion segment 연결.
모델 구조 — 사전학습된 vision-language backbone + B-spline 제어점으로 각 query를 표현하는 modular trace expert.

한계·조건

데이터 — TraceExtract는 다양한 비디오 소스에서 작동하지만, 3D 정렬 과정에서 오차가 발생할 수 있습니다.
재현성 — 코드와 모델 가중치 공개 여부는 논문에 명시되지 않았습니다.
벤치 — 실험은 주로 시뮬레이션 및 특정 로봇 플랫폼에서 수행되어 실제 환경 일반화는 추가 검증이 필요합니다.

편집자 한 줄

행동 레이블 없이도 VLA 수준 성능을 낸 점이 인상적이지만, 3D 궤적 추출 파이프라인의 견고성과 실제 로봇에서의 일반화가 관건이겠네요.

#world-model
#3d-trace
#robot-learning
#uc-berkeley
#cross-embodiment

Seungjae Lee

원문 보기 →

μ_0: 3D 궤적 예측 기반 확장 가능한 월드 모델 — 행동 레이블 없이도 VLA 수준 성능

핵심 결론

방법

한계·조건

Comments