Papers·3개월 전

X-WAM: 단일 프레임워크로 로봇 행동 실행과 4D 세계 생성 통합 — RoboCasa 79.2%, RoboTwin 2.0 90.7% 성공률

X-WAM은 사전 학습된 비디오 확산 모델의 시각적 사전 지식을 활용하여 다중 뷰 RGB-D 비디오를 예측하고, 경량 구조 적응(사전 학습된 Diffusion Transformer의 마지막 몇 블록을 깊이 예측 브랜치로 복제)을 통해 3D 재구성을 수행합니다. 또한 비동기 노이즈 샘플링(ANS)을 도입하여 추론 시 적은 단계로 빠르게 행동을 디코딩하면서도 고품질 비디오 생성을 위해 전체 단계를 사용합니다. 5,800시간 이상의 로봇 데이터로 사전 훈련되었으며, 한계로는 단일 GPU 환경에서의 효율성 검증이 필요합니다.

#robotics
#world-model
#diffusion
#4d-generation
#x-wam

Jun Guo

원문 보기 →

X-WAM: 단일 프레임워크로 로봇 행동 실행과 4D 세계 생성 통합 — RoboCasa 79.2%, RoboTwin 2.0 90.7% 성공률

Comments