Papers·1개월 전

Flash-WAM: 단일 스텝으로 로봇 액션+비디오 생성, 23배 속도 향상

World-action model(WAM)의 step distillation에서 비디오와 액션 간 SNR 차이를 해결한 Flash-WAM이 RoboTwin 2.0에서 latency를 8.1초에서 348ms로 23배 줄이며 실시간 제어를 가능하게 했습니다. 각 modality에 맞는 consistency function 파라미터화(액션: linear-gradient-scaling, 비디오: variance-preserving)를 도입해 단일 스텝 추론을 달성했고, 시뮬레이션 성공률은 85.5%(RoboTwin 2.0), 95.7%(LIBERO)를 유지했습니다. 단, 실제 Unitree G1 휴머노이드 로봇에서는 60%로 하락해 현실 격차가 남아 있습니다.

World-action model의 step distillation에서 비디오와 액션 간 SNR 차이를 해결한 Flash-WAM이 단일 스텝 추론으로 23배 속도 향상을 달성했습니다.

핵심 결론

속도 — RoboTwin 2.0에서 per-chunk latency 8.1초 → 348ms (23배), NVIDIA L40S 기준.
성능 — 시뮬레이션 성공률 85.5%(RoboTwin 2.0), 95.7%(LIBERO)로 기존 WAM과 유사.
실험 — 실제 Unitree G1 휴머노이드 로봇에서 60% 성공률, naive consistency distillation은 24%.

방법

문제 — 비디오와 액션 스트림이 서로 다른 SNR-shifted noise schedule을 사용해 marginal noise 분포가 달라, 단일 modality distillation이 실패.
해결 — 각 modality에 맞는 consistency function 파라미터화: 액션은 linear-gradient-scaling (저잡음 영역), 비디오는 variance-preserving (고잡음 영역).
구조 — Consistency function family의 gradient scaling 분석을 바탕으로 설계, LingBot-VA backbone에 적용.

한계·조건

환경 — NVIDIA L40S GPU 기준, 다른 하드웨어에서의 속도는 미공개.
현실 격차 — 실제 로봇 성능 60%는 시뮬레이션 대비 낮아, sim-to-real gap이 존재.
코드 — Hugging Face에 모델 가중치 공개 예정, 학습 코드는 미공개.

편집자 한 줄

단일 스텝으로 실시간 제어가 가능해진 점은 인상적이지만, 실제 로봇 성능이 시뮬레이션에 비해 크게 떨어지는 점은 보완이 필요해 보입니다.

#world-action-model
#distillation
#robotics
#real-time
#nvidia

Arman Akbari

원문 보기 →

Flash-WAM: 단일 스텝으로 로봇 액션+비디오 생성, 23배 속도 향상

핵심 결론

방법

한계·조건

Comments