← Back to feed
Papers·3일 전

LaWAM: 잠재 시각 목표로 로봇 정책에 예측 동역학을 주입 — LIBERO 98.6% 성공률, 24배 지연 시간 감소

LaWAM: 잠재 시각 목표로 로봇 정책에 예측 동역학을 주입 — LIBERO 98.6% 성공률, 24배 지연 시간 감소

KAIST 팀이 제안한 LaWAM은 미래 비디오를 생성하는 대신 잠재 공간에서 시각적 하위 목표를 예측해 로봇 정책에 동역학 인식을 부여합니다. 사전 훈련된 비전 기반 모델의 잠재 공간에서 잠재 행동 모델을 학습하고, 그 순방향 디코더로 미래 관찰 특징을 예측한 뒤 이 예측된 잠재 목표로 행동 생성을 조건화합니다. LIBERO(98.6%), RoboTwin(91.22%), 실제 조작 과제에서 SOTA 수준의 성공률을 달성했으며, 액션 청크당 187ms, 픽셀 공간 WAM 대비 최대 24배 낮은 지연 시간을 기록했습니다.

KAIST 연구진이 미래 비디오 대신 잠재 시각 목표를 예측해 로봇 정책에 동역학 인식을 주입하는 LaWAM을 공개했습니다.

핵심 결론

  • 성공률LIBERO 98.6%, RoboTwin 91.22%, 실제 조작 과제에서 SOTA 수준.
  • 지연 시간액션 청크당 187ms, 픽셀 공간 WAM 대비 최대 24배 감소.

방법

  • 잠재 세계 모델사전 훈련된 비전 기반 모델(DINOv2)의 잠재 공간에서 행동 조건부 잠재 세계 모델(LaWM)을 학습.
  • 예측 조건화LaWM의 순방향 디코더로 미래 관찰 특징을 예측하고, 이 잠재 시각 하위 목표로 행동 생성을 조건화.
  • 픽셀 수준의 비디오 생성 없이 잠재 표현만으로 동역학을 포착해 계산 효율성을 크게 높였습니다.

한계·조건

  • 환경LIBERO 시뮬레이터와 실제 로봇 팔 환경에서 검증되었으며, 대규모 다양성은 아직 확인되지 않음.
  • 코드Hugging Face에 모델 가중치와 코드가 공개될 예정.

편집자 한 줄

잠재 공간에서의 예측이 픽셀 재구성보다 얼마나 일반화에 유리한지는 추가 분석이 필요해 보입니다.

  • #robotics
  • #world-model
  • #vla
  • #latent-dynamics
  • #kaist
RLinf
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —