← Back to feed
Papers·어제

AHA-WAM: 비동기 시차 세계-행동 모델 — RoboTwin 92.8% 성공률, 24.17Hz 제어

AHA-WAM: 비동기 시차 세계-행동 모델 — RoboTwin 92.8% 성공률, 24.17Hz 제어

Jisong Cai 연구팀이 로봇 조작을 위한 비동기 시차 적응형 세계-행동 모델 AHA-WAM을 제안했습니다. 기존 세계-행동 모델이 세계 예측과 행동 실행을 동일한 시간 해상도로 묶어 불필요한 근거리 변동을 모델링하는 문제를 해결하기 위해, 비디오 DiT를 저주파 세계 플래너로, 행동 DiT를 고주파 실행기로 분리했습니다. 실험 결과 RoboTwin에서 92.80% 평균 성공률, 실제 4개 태스크에서 78.3% 성공률을 달성했으며, 24.17Hz 폐루프 제어로 Fast-WAM 대비 4.59배 속도 향상을 보였습니다. 단, 8x A100 환경 기준이며 코드는 아직 공개되지 않았습니다.

Jisong Cai 연구팀이 로봇 조작을 위한 비동기 시차 적응형 세계-행동 모델 AHA-WAM을 제안했습니다.

핵심 결론

  • 성능RoboTwin 벤치마크에서 92.80% 평균 성공률, 실제 4개 태스크에서 78.3% 성공률.
  • 속도24.17Hz 폐루프 제어로 Fast-WAM 대비 4.59배 속도 향상.
  • 사전학습로봇 데이터 사전학습 없이 SOTA 달성.

방법

  • 비동기 구조비디오 DiT는 저주파 세계 플래너로, 행동 DiT는 고주파 실행기로 분리하여 시간 해상도 비대칭을 활용.
  • 메모리비디오 DiT는 rolling KV memory로 과거 관측을 유지, layerwise latent context 제공.
  • OVCRObservation-Guided Video-Context Routing으로 행동 전문가가 장기 맥락을 활용하면서 실시간 실행 상태에 반응.
  • 훈련Horizon-adaptive offset training으로 비동기 실행 지원.

한계·조건

  • 환경8x A100 GPU 기준, 단일 GPU에서는 속도 이득이 줄어들 가능성.
  • 코드코드와 사전학습 가중치는 아직 공개되지 않음.
  • 태스크실험은 RoboTwin과 4개 실제 태스크로 제한적, 일반화 검증 필요.

편집자 한 줄

비동기 시차를 도입해 세계 모델과 행동 모델의 충돌을 해결한 점이 인상적입니다. 다만 코드 공개 전까지 재현성은 미지수네요.

  • #robot-manipulation
  • #world-action-model
  • #diffusion-transformer
  • #robotics
Jisong Cai
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —