Papers·5일 전
World Action Models (WAM) 서베이 — 비디오 생성 모델과 행동 정책의 경계를 정리하다

NUS 연구팀이 World Action Models(WAM)에 대한 체계적인 서베이를 공개했습니다. 비디오 생성 모델, 행동 기반 비디오 월드 모델, VLA 정책 등 혼재된 개념을 '무엇을 생성하는가(rendered/latent future, action reasoning)'와 '어떻게 구성되는가(predictive substrate, backbone, action coupling, deployment)' 두 축으로 분류합니다. 핵심 인사이트는 WAM이 단순히 액션 헤드가 달린 비디오 생성기가 아니라, 표현의 풍부함과 계산/메모리/지연 시간/레이블 비용 사이의 트레이드오프를 설계하는 예측-행동 방법이라는 점입니다. 현재 추세는 '제어에 필요한 만큼만 미래를 생성하는' 방향으로 수렴 중입니다.
NUS 연구팀이 World Action Models(WAM)의 개념 정리와 현황을 다루는 서베이를 공개했습니다.
핵심 결론
- 정의 — WAM은 미래 예측을 행동에 제공하는 체화된 예측-행동 모델로, 비디오 생성 모델과 VLA 정책의 중간 영역입니다.
- 분류 축 — 첫 번째 축은 생성 대상(rendered future, latent future, action reasoning), 두 번째 축은 구성 요소(predictive substrate, backbone, action coupling, deployment regime)입니다.
- 트렌드 — 최근 방법들은 '제어에 필요한 만큼만 미래를 생성'하는 방향으로 이동 중이며, 이는 계산·메모리·지연 시간·레이블 비용과 표현력 사이의 트레이드오프를 반영합니다.
방법
- 범위 — 비디오 생성 기반 WAM, 비디오 생성 없는 WAM, 행동 조건부 비디오 월드 모델, VLA 정책 등을 포함합니다.
- 분석 차원 — 상호작용 가능성, 인과성, 지속성, 물리적 타당성, 일반화 등 5가지 속성으로 각 방법을 비교합니다.
- 데이터·평가 — 데이터셋, 평가 지표, 공개 과제에 대한 논의도 포함되어 있습니다.
한계·조건
- 범위 — 서베이이므로 새로운 실험 결과는 없으며, 기존 문헌의 분류와 분석에 초점을 둡니다.
- 코드 — 서베이 홈페이지(https://world-action-models.github.io/)에서 관련 자료를 확인할 수 있습니다.
편집자 한 줄
WAM 분야가 빠르게 확장되면서 용어가 혼란스러웠는데, 이 서베이가 개념적 기준점을 잡아줄 만합니다.
- #world-models
- #video-generation
- #embodied-ai
- #survey
- #nus
National University of Singapore