Papers·어제
WLA-0: 세계-언어-행동 통합 로봇 기초 모델 — 2B 파라미터로 92.94% 성공률

Yi Yang 팀이 텍스트, 이미지, 로봇 상태를 입력받아 하위 태스크, 목표 이미지, 행동을 동시 예측하는 WLA(World-Language-Action) 모델을 제안했습니다. 핵심은 autoregressive Transformer backbone 위에 World Expert와 Action Expert를 두고, meta-query로 세계 예측이 행동 생성에 암묵적으로 영향을 주도록 설계한 점입니다. 2B 활성 파라미터의 WLA-0 프로토타입은 RoboTwin2.0 Clean에서 92.94%, RMBench에서 56.5% 성공률을 기록했으며, RTX 5090에서 추론당 40ms로 동작합니다. 단, 평가 환경이 시뮬레이션 위주이고 실제 로봇 일반화는 추가 검증이 필요해 보입니다.
Yi Yang 팀이 텍스트, 이미지, 로봇 상태를 통합해 하위 태스크·목표 이미지·행동을 동시 예측하는 WLA 모델을 공개했습니다.
핵심 결론
- 성능 — RoboTwin2.0 Clean 92.94%, RMBench 56.5% 성공률 — 기존 VLA·WAM 대비 멀티태스크·장기 과제에서 SOTA.
- 속도 — RTX 5090 기준 추론당 40ms, 2B 활성 파라미터로 실시간 구동 가능.
- 데이터 효율 — 크로스-임보디먼트 로봇 비디오에서 액션 레이블 없이도 새로운 태스크 학습 가능.
방법
- 아키텍처 — Autoregressive Transformer backbone 위에 World Expert(물리 동역학 예측)와 Action Expert(행동 생성)를 배치.
- Meta-query — 세계 예측이 행동 생성에 암묵적 영향을 주도록 meta-query 사용 — 추론 시 세계 예측을 비활성화할 수 있어 효율적.
- 훈련 — 대규모 egocentric 비디오로 세계 모델을 사전학습한 후, 로봇 데이터로 미세조정.
한계·조건
- 평가 환경 — RoboTwin2.0, RMBench 등 시뮬레이션 위주 — 실제 로봇 일반화 성능은 추가 실험이 필요.
- 파라미터 — 2B 활성 파라미터지만 전체 파라미터 수는 공개되지 않음.
- 코드·모델 — 현재 논문과 데모만 공개, 학습 코드 및 가중치 공개 여부 미정.
편집자 한 줄
세계 모델과 언어 모델을 하나의 AR Transformer로 통합한 설계는 깔끔하지만, 실제 로봇 하드웨어에서의 지연 시간과 일반화는 좀 더 지켜봐야 할 부분입니다.
- #robotics
- #foundation-model
- #world-model
- #embodied-ai
Yi Yang