Papers·어제
NVIDIA OmniDreams — Cosmos 기반 생성 월드 모델로 자율주행 폐쇄 루프 시뮬레이션의 장면 일반화 한계 돌파

NVIDIA가 Cosmos diffusion 모델을 기반으로 한 생성 월드 모델 OmniDreams를 공개했습니다. 21k 시간의 주행 데이터로 mid/post-training하여 극한 날씨나 예측 불가 동적 에이전트 등 기존 시뮬레이터가 포착하기 어려운 복잡한 미관측 현상을 실시간으로 합성합니다. Alpamayo 1 정책 모델과 AlpaSim 오케스트레이터로 구성된 폐쇄 루프 시스템에서 반응형 환경 역할을 하며, NuRec 데이터셋에서 VLA 기반 Alpamayo 1.5 대비 1/5 파라미터로 더 높은 성능을 보인 WAM(World-Action Model)의 백본으로도 활용 가능함을 시사합니다.
NVIDIA가 Cosmos diffusion 모델을 기반으로 한 생성 월드 모델 OmniDreams를 통해 자율주행 폐쇄 루프 시뮬레이션의 장면 일반화 한계를 돌파했습니다.
핵심 결론
- 태스크 — 폐쇄 루프 시뮬레이션에서 행동 조건부 비디오를 실시간으로 생성하는 생성 월드 모델.
- 성능 — NuRec 데이터셋에서 WAM이 VLA 기반 Alpamayo 1.5 대비 1/5 파라미터로 더 높은 성능을 기록.
방법
- 기반 모델 — Cosmos diffusion 모델을 mid/post-training하여 21k 시간 주행 데이터로 미세 조정.
- 생성 방식 — 과거 프레임, 현재 시뮬레이터 상태, 즉시 행동을 조건으로 autoregressive하게 센서 데이터를 생성.
- 폐쇄 루프 시스템은 Alpamayo 1 정책 모델과 AlpaSim 오케스트레이터로 구성되어 반응형 환경을 제공합니다.
한계·조건
- 데이터 — 21k 시간 주행 데이터로 학습되었으나, 특정 지역이나 도메인에 대한 일반화는 추가 검증 필요.
- 실시간성 — 실시간 생성이 가능하다고 하나, 구체적인 latency 수치는 논문에 명시되지 않음.
- 코드 — 현재 논문 및 예비 결과만 공개, 코드 및 모델 가중치 공개 여부 미정.
편집자 한 줄
생성 월드 모델이 정책 백본 역할까지 할 수 있다는 점은 흥미롭지만, 실제 배포를 위해서는 안전성 및 현실성 검증이 더 필요해 보입니다.
- #autonomous-driving
- #world-model
- #simulation
- #nvidia
- #cosmos
NVIDIA