Papers·3일 전
LaWAM: 잠재 시각 목표로 로봇 정책에 예측 동역학을 주입 — LIBERO 98.6% 성공률, 24배 지연 시간 감소

KAIST 팀이 제안한 LaWAM은 미래 비디오를 생성하는 대신 잠재 공간에서 시각적 하위 목표를 예측해 로봇 정책에 동역학 인식을 부여합니다. 사전 훈련된 비전 기반 모델의 잠재 공간에서 잠재 행동 모델을 학습하고, 그 순방향 디코더로 미래 관찰 특징을 예측한 뒤 이 예측된 잠재 목표로 행동 생성을 조건화합니다. LIBERO(98.6%), RoboTwin(91.22%), 실제 조작 과제에서 SOTA 수준의 성공률을 달성했으며, 액션 청크당 187ms, 픽셀 공간 WAM 대비 최대 24배 낮은 지연 시간을 기록했습니다.
KAIST 연구진이 미래 비디오 대신 잠재 시각 목표를 예측해 로봇 정책에 동역학 인식을 주입하는 LaWAM을 공개했습니다.
핵심 결론
- 성공률 — LIBERO 98.6%, RoboTwin 91.22%, 실제 조작 과제에서 SOTA 수준.
- 지연 시간 — 액션 청크당 187ms, 픽셀 공간 WAM 대비 최대 24배 감소.
방법
- 잠재 세계 모델 — 사전 훈련된 비전 기반 모델(DINOv2)의 잠재 공간에서 행동 조건부 잠재 세계 모델(LaWM)을 학습.
- 예측 조건화 — LaWM의 순방향 디코더로 미래 관찰 특징을 예측하고, 이 잠재 시각 하위 목표로 행동 생성을 조건화.
- 픽셀 수준의 비디오 생성 없이 잠재 표현만으로 동역학을 포착해 계산 효율성을 크게 높였습니다.
한계·조건
- 환경 — LIBERO 시뮬레이터와 실제 로봇 팔 환경에서 검증되었으며, 대규모 다양성은 아직 확인되지 않음.
- 코드 — Hugging Face에 모델 가중치와 코드가 공개될 예정.
편집자 한 줄
잠재 공간에서의 예측이 픽셀 재구성보다 얼마나 일반화에 유리한지는 추가 분석이 필요해 보입니다.
- #robotics
- #world-model
- #vla
- #latent-dynamics
- #kaist
RLinf