← Back to feed
Papers·5일 전

World Action Models (WAM) 서베이 — 비디오 생성 모델과 행동 정책의 경계를 정리하다

World Action Models (WAM) 서베이 — 비디오 생성 모델과 행동 정책의 경계를 정리하다

NUS 연구팀이 World Action Models(WAM)에 대한 체계적인 서베이를 공개했습니다. 비디오 생성 모델, 행동 기반 비디오 월드 모델, VLA 정책 등 혼재된 개념을 '무엇을 생성하는가(rendered/latent future, action reasoning)'와 '어떻게 구성되는가(predictive substrate, backbone, action coupling, deployment)' 두 축으로 분류합니다. 핵심 인사이트는 WAM이 단순히 액션 헤드가 달린 비디오 생성기가 아니라, 표현의 풍부함과 계산/메모리/지연 시간/레이블 비용 사이의 트레이드오프를 설계하는 예측-행동 방법이라는 점입니다. 현재 추세는 '제어에 필요한 만큼만 미래를 생성하는' 방향으로 수렴 중입니다.

NUS 연구팀이 World Action Models(WAM)의 개념 정리와 현황을 다루는 서베이를 공개했습니다.

핵심 결론

  • 정의WAM은 미래 예측을 행동에 제공하는 체화된 예측-행동 모델로, 비디오 생성 모델과 VLA 정책의 중간 영역입니다.
  • 분류 축첫 번째 축은 생성 대상(rendered future, latent future, action reasoning), 두 번째 축은 구성 요소(predictive substrate, backbone, action coupling, deployment regime)입니다.
  • 트렌드최근 방법들은 '제어에 필요한 만큼만 미래를 생성'하는 방향으로 이동 중이며, 이는 계산·메모리·지연 시간·레이블 비용과 표현력 사이의 트레이드오프를 반영합니다.

방법

  • 범위비디오 생성 기반 WAM, 비디오 생성 없는 WAM, 행동 조건부 비디오 월드 모델, VLA 정책 등을 포함합니다.
  • 분석 차원상호작용 가능성, 인과성, 지속성, 물리적 타당성, 일반화 등 5가지 속성으로 각 방법을 비교합니다.
  • 데이터·평가데이터셋, 평가 지표, 공개 과제에 대한 논의도 포함되어 있습니다.

한계·조건

  • 범위서베이이므로 새로운 실험 결과는 없으며, 기존 문헌의 분류와 분석에 초점을 둡니다.
  • 코드서베이 홈페이지(https://world-action-models.github.io/)에서 관련 자료를 확인할 수 있습니다.

편집자 한 줄

WAM 분야가 빠르게 확장되면서 용어가 혼란스러웠는데, 이 서베이가 개념적 기준점을 잡아줄 만합니다.

  • #world-models
  • #video-generation
  • #embodied-ai
  • #survey
  • #nus
National University of Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —