← Back to feed
Papers·2일 전

Flash-WAM: 단일 스텝으로 로봇 액션+비디오 생성, 23배 속도 향상

Flash-WAM: 단일 스텝으로 로봇 액션+비디오 생성, 23배 속도 향상

World-action model(WAM)의 step distillation에서 비디오와 액션 간 SNR 차이를 해결한 Flash-WAM이 RoboTwin 2.0에서 latency를 8.1초에서 348ms로 23배 줄이며 실시간 제어를 가능하게 했습니다. 각 modality에 맞는 consistency function 파라미터화(액션: linear-gradient-scaling, 비디오: variance-preserving)를 도입해 단일 스텝 추론을 달성했고, 시뮬레이션 성공률은 85.5%(RoboTwin 2.0), 95.7%(LIBERO)를 유지했습니다. 단, 실제 Unitree G1 휴머노이드 로봇에서는 60%로 하락해 현실 격차가 남아 있습니다.

World-action model의 step distillation에서 비디오와 액션 간 SNR 차이를 해결한 Flash-WAM이 단일 스텝 추론으로 23배 속도 향상을 달성했습니다.

핵심 결론

  • 속도RoboTwin 2.0에서 per-chunk latency 8.1초 → 348ms (23배), NVIDIA L40S 기준.
  • 성능시뮬레이션 성공률 85.5%(RoboTwin 2.0), 95.7%(LIBERO)로 기존 WAM과 유사.
  • 실험실제 Unitree G1 휴머노이드 로봇에서 60% 성공률, naive consistency distillation은 24%.

방법

  • 문제비디오와 액션 스트림이 서로 다른 SNR-shifted noise schedule을 사용해 marginal noise 분포가 달라, 단일 modality distillation이 실패.
  • 해결각 modality에 맞는 consistency function 파라미터화: 액션은 linear-gradient-scaling (저잡음 영역), 비디오는 variance-preserving (고잡음 영역).
  • 구조Consistency function family의 gradient scaling 분석을 바탕으로 설계, LingBot-VA backbone에 적용.

한계·조건

  • 환경NVIDIA L40S GPU 기준, 다른 하드웨어에서의 속도는 미공개.
  • 현실 격차실제 로봇 성능 60%는 시뮬레이션 대비 낮아, sim-to-real gap이 존재.
  • 코드Hugging Face에 모델 가중치 공개 예정, 학습 코드는 미공개.

편집자 한 줄

단일 스텝으로 실시간 제어가 가능해진 점은 인상적이지만, 실제 로봇 성능이 시뮬레이션에 비해 크게 떨어지는 점은 보완이 필요해 보입니다.

  • #world-action-model
  • #distillation
  • #robotics
  • #real-time
  • #nvidia
Arman Akbari
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —