← Back to feed
Papers·4일 전

Light-WAM: 0.44B 파라미터 경량 World Action Model — LIBERO 유지, 추론 72ms

Light-WAM: 0.44B 파라미터 경량 World Action Model — LIBERO 유지, 추론 72ms

Wuhan University 팀이 미래 비디오 예측을 보조 목표로 사용하는 World Action Model(WAM)의 경량 버전 Light-WAM을 제안했습니다. 다운샘플링된 잠재 공간에서 비디오 공동 학습을 수행하고, StateFusionActionExpert로 여러 백본 레이어의 상태를 융합해 단일 패스로 액션 청크를 예측합니다. LIBERO 벤치마크에서 성능을 유지하면서 0.44B 파라미터, 72.03ms 추론 지연시간, 4.1GiB 피크 GPU 메모리를 달성했지만, RoboTwin 2.0에서는 멀티태스크 성능이 'usable' 수준에 그친 점이 한계입니다.

Wuhan University 연구진이 미래 예측을 활용한 로봇 정책 학습 모델을 0.44B 파라미터로 경량화했습니다.

핵심 결론

  • 파라미터0.44B로 기존 WAM 대비 10분의 1 수준, LIBERO 성능은 유지.
  • 추론 속도72.03ms, 4.1GiB GPU 메모리로 실시간 폐쇄 루프 제어에 적합.
  • 멀티태스크RoboTwin 2.0에서 usable 수준 — SOTA 대비 다소 부족.

방법

  • 비디오 백본경량 비디오 백본을 사용하고, 다운샘플링된 잠재 공간에서 미래 프레임을 예측해 비디오 공동 학습 비용을 절감.
  • StateFusionActionExpert여러 백본 레이어에서 적응된 상태를 읽고, 학습된 쿼리 풀링으로 융합한 뒤 단일 순방향 패스로 액션 청크를 직접 예측.
  • 효율성무거운 생성형 액션 전문가를 피하고, 비디오 표현과 로봇 액션 사이의 효율적인 인터페이스를 제공.

한계·조건

  • 멀티태스크 성능RoboTwin 2.0에서 usable 수준 — 복잡한 태스크 일반화는 추가 연구 필요.
  • 재현성코드 및 모델 가중치는 아직 공개되지 않음.
  • 벤치마크LIBERO 단일 태스크에서는 강하지만, 멀티태스크 벤치마크에서의 격차가 존재.

편집자 한 줄

경량화 방향은 좋지만, 멀티태스크 성능이 'usable'에 그친 점은 실제 배포 시 추가 검증이 필요해 보입니다.

  • #world-action-model
  • #robot-manipulation
  • #lightweight
  • #wuhan-university
Wuhan Univeristy
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —