← Back to feed
Papers·4일 전

RLA-WM: Residual Latent Action 기반 월드 모델 — 시뮬레이션·실세계에서 SOTA, 비디오 확산 대비 수십 배 빠름

RLA-WM: Residual Latent Action 기반 월드 모델 — 시뮬레이션·실세계에서 SOTA, 비디오 확산 대비 수십 배 빠름

Xinyu Zhang 팀이 DINO residual에서 학습한 Residual Latent Action(RLA)을 flow matching으로 예측하는 RLA-WM을 제안했습니다. 기존 feature 기반 월드 모델의 blurry 문제와 비디오 확산의 느린 속도를 모두 해결, 시뮬레이션 및 실세계 데이터에서 SOTA를 달성했으며 비디오 확산보다 수십 배 빠릅니다. 또한 RLA-WM을 활용해 actionless 비디오에서 정책 학습이 가능한 최소 월드 액션 모델과, 오프라인 비디오만으로 학습한 최초의 visual RL 프레임워크를 선보였습니다.

Xinyu Zhang

Comments

— 첫 댓글을 남겨보세요 —