Papers·1개월 전

Light-WAM: 0.44B 파라미터 경량 World Action Model — LIBERO 유지, 추론 72ms

Wuhan University 팀이 미래 비디오 예측을 보조 목표로 사용하는 World Action Model(WAM)의 경량 버전 Light-WAM을 제안했습니다. 다운샘플링된 잠재 공간에서 비디오 공동 학습을 수행하고, StateFusionActionExpert로 여러 백본 레이어의 상태를 융합해 단일 패스로 액션 청크를 예측합니다. LIBERO 벤치마크에서 성능을 유지하면서 0.44B 파라미터, 72.03ms 추론 지연시간, 4.1GiB 피크 GPU 메모리를 달성했지만, RoboTwin 2.0에서는 멀티태스크 성능이 'usable' 수준에 그친 점이 한계입니다.

Wuhan University 연구진이 미래 예측을 활용한 로봇 정책 학습 모델을 0.44B 파라미터로 경량화했습니다.

핵심 결론

파라미터 — 0.44B로 기존 WAM 대비 10분의 1 수준, LIBERO 성능은 유지.
추론 속도 — 72.03ms, 4.1GiB GPU 메모리로 실시간 폐쇄 루프 제어에 적합.
멀티태스크 — RoboTwin 2.0에서 usable 수준 — SOTA 대비 다소 부족.

방법

비디오 백본 — 경량 비디오 백본을 사용하고, 다운샘플링된 잠재 공간에서 미래 프레임을 예측해 비디오 공동 학습 비용을 절감.
StateFusionActionExpert — 여러 백본 레이어에서 적응된 상태를 읽고, 학습된 쿼리 풀링으로 융합한 뒤 단일 순방향 패스로 액션 청크를 직접 예측.
효율성 — 무거운 생성형 액션 전문가를 피하고, 비디오 표현과 로봇 액션 사이의 효율적인 인터페이스를 제공.

한계·조건

멀티태스크 성능 — RoboTwin 2.0에서 usable 수준 — 복잡한 태스크 일반화는 추가 연구 필요.
재현성 — 코드 및 모델 가중치는 아직 공개되지 않음.
벤치마크 — LIBERO 단일 태스크에서는 강하지만, 멀티태스크 벤치마크에서의 격차가 존재.

편집자 한 줄

경량화 방향은 좋지만, 멀티태스크 성능이 'usable'에 그친 점은 실제 배포 시 추가 검증이 필요해 보입니다.

#world-action-model
#robot-manipulation
#lightweight
#wuhan-university

Wuhan Univeristy

원문 보기 →

Light-WAM: 0.44B 파라미터 경량 World Action Model — LIBERO 유지, 추론 72ms

핵심 결론

방법

한계·조건

Comments