Papers·어제
AHA-WAM: 비동기 시차 세계-행동 모델 — RoboTwin 92.8% 성공률, 24.17Hz 제어

Jisong Cai 연구팀이 로봇 조작을 위한 비동기 시차 적응형 세계-행동 모델 AHA-WAM을 제안했습니다. 기존 세계-행동 모델이 세계 예측과 행동 실행을 동일한 시간 해상도로 묶어 불필요한 근거리 변동을 모델링하는 문제를 해결하기 위해, 비디오 DiT를 저주파 세계 플래너로, 행동 DiT를 고주파 실행기로 분리했습니다. 실험 결과 RoboTwin에서 92.80% 평균 성공률, 실제 4개 태스크에서 78.3% 성공률을 달성했으며, 24.17Hz 폐루프 제어로 Fast-WAM 대비 4.59배 속도 향상을 보였습니다. 단, 8x A100 환경 기준이며 코드는 아직 공개되지 않았습니다.
Jisong Cai 연구팀이 로봇 조작을 위한 비동기 시차 적응형 세계-행동 모델 AHA-WAM을 제안했습니다.
핵심 결론
- 성능 — RoboTwin 벤치마크에서 92.80% 평균 성공률, 실제 4개 태스크에서 78.3% 성공률.
- 속도 — 24.17Hz 폐루프 제어로 Fast-WAM 대비 4.59배 속도 향상.
- 사전학습 — 로봇 데이터 사전학습 없이 SOTA 달성.
방법
- 비동기 구조 — 비디오 DiT는 저주파 세계 플래너로, 행동 DiT는 고주파 실행기로 분리하여 시간 해상도 비대칭을 활용.
- 메모리 — 비디오 DiT는 rolling KV memory로 과거 관측을 유지, layerwise latent context 제공.
- OVCR — Observation-Guided Video-Context Routing으로 행동 전문가가 장기 맥락을 활용하면서 실시간 실행 상태에 반응.
- 훈련 — Horizon-adaptive offset training으로 비동기 실행 지원.
한계·조건
- 환경 — 8x A100 GPU 기준, 단일 GPU에서는 속도 이득이 줄어들 가능성.
- 코드 — 코드와 사전학습 가중치는 아직 공개되지 않음.
- 태스크 — 실험은 RoboTwin과 4개 실제 태스크로 제한적, 일반화 검증 필요.
편집자 한 줄
비동기 시차를 도입해 세계 모델과 행동 모델의 충돌을 해결한 점이 인상적입니다. 다만 코드 공개 전까지 재현성은 미지수네요.
- #robot-manipulation
- #world-action-model
- #diffusion-transformer
- #robotics
Jisong Cai