Papers·1개월 전

WALL-WM: 이벤트 기반 VLA 사전학습으로 로봇 행동 모델 일반화 — 7개 벤치 SOTA

Shalfun Li 팀이 제안한 WALL-WM은 기존 고정 길이 액션 청크 최적화 대신 의미적 이벤트 단위로 비전-언어-액션(VLA)을 사전학습하는 World Action Model입니다. 이벤트 단위 캡션과 클러스터 균형 샘플링 데이터 생태계를 통해 다양한 행동·장면·태스크에서 일반화 성능을 높였으며, 대규모 실제 환경 평가에서 SOTA를 달성했습니다. 다만 Muon 옵티마이저 기반 대규모 사전학습 인프라가 필요해 재현 비용이 높은 편입니다.

로봇 행동 모델이 언어·비전·액션의 시간적 불일치를 해결하는 새로운 접근법을 제시했습니다.

핵심 결론

태스크 — 실제 로봇 조작 및 내비게이션 등 다양한 태스크에서 기존 WAM 대비 일반화 성능 우위.
수치 — 대규모 실제 환경 일반화 평가에서 SOTA 달성 — 구체적 수치는 논문 내 Table 2~4 참조.
저자 — Shalfun Li 단독 저자로, 공개된 코드나 체크포인트는 아직 없습니다.

방법

핵심 아이디어 — 고정 길이 액션 청크 대신 의미적 이벤트(예: '집기', '옮기기')를 학습 단위로 사용.
이벤트 기반 VLA — 각 이벤트에 대해 캡션을 생성하고, 클러스터 균형 샘플링으로 데이터 다양성 확보.
추론 모드 — 이벤트 모드(가변 길이 실행)와 통합 모드(Staircase Decoding으로 고정 청크 호환) 두 가지 지원.
인프라 — Muon 옵티마이저 기반 대규모 사전학습 파이프라인을 구축해 확장성을 확보.

한계·조건

리소스 — Muon 옵티마이저와 대규모 데이터셋이 필요해 소규모 연구실에서 재현이 어렵습니다.
코드 — 현재 코드와 모델 가중치는 공개되지 않았습니다.
벤치 — 평가가 실제 환경에 집중되어 시뮬레이터 기반 벤치와의 비교는 부족합니다.

편집자 한 줄

이벤트 단위 학습은 VLA의 granularity mismatch를 직관적으로 해결한 점이 인상적입니다. 다만 단일 저자 논문이고 코드 미공개라 재현성에 물음표가 붙는 건 아쉽네요.

#world-action-model
#vla
#robotics
#pretraining
#shalfun-li

Shalfun Li

원문 보기 →

WALL-WM: 이벤트 기반 VLA 사전학습으로 로봇 행동 모델 일반화 — 7개 벤치 SOTA

핵심 결론

방법

한계·조건

Comments