Papers·3일 전
NVIDIA Cosmos 3 — 언어·이미지·비디오·오디오·액션을 통합한 옴니모달 월드 모델

NVIDIA가 언어, 이미지, 비디오, 오디오, 액션 시퀀스를 하나의 mixture-of-transformers 아키텍처로 처리·생성하는 Cosmos 3 패밀리를 공개했습니다. 단일 프레임워크로 비전-언어 모델, 비디오 생성기, 월드 시뮬레이터, 월드-액션 모델을 대체할 수 있으며, 다양한 이해·생성 태스크에서 SOTA를 달성했습니다. 단, 모델 규모와 학습 데이터셋 크기에 대한 구체적인 수치는 보고서에 명시되지 않았습니다.
NVIDIA가 언어·이미지·비디오·오디오·액션을 하나의 프레임워크로 통합한 옴니모달 월드 모델 Cosmos 3를 공개했습니다.
핵심 결론
- 태스크 — 언어·이미지·비디오·오디오·액션 시퀀스의 이해와 생성 — 단일 모델로 5개 모달리티를 처리.
- 성능 — Text-to-Image, Image-to-Video에서 Artificial Analysis 최고 오픈소스 모델, RoboArena에서 최고 정책 모델로 선정.
- 범위 — 비전-언어, 비디오 생성, 월드 시뮬레이션, 액션 예측을 모두 아우르는 통합 평가.
방법
- 아키텍처 — Mixture-of-Transformers (MoT) — 모달리티별 전문가를 혼합하여 유연한 입출력 구성 지원.
- 옴니모달 — 입력과 출력 조합이 자유로워, 예를 들어 이미지+텍스트 입력으로 비디오+오디오를 생성하거나, 액션 시퀀스를 조건으로 비디오를 예측할 수 있습니다.
- 사전학습과 후속학습(post-training)을 통해 Physical AI 에이전트의 백본으로 사용 가능.
한계·조건
- 공개 — 코드, 모델 체크포인트, 합성 데이터셋, 평가 벤치마크를 Linux Foundation OpenMDW-1.1 라이선스로 공개.
- 규모 — 모델 파라미터 수, 학습 데이터 규모, 추론 비용 등 구체적인 수치는 보고서에 명시되지 않음.
- 벤치마크가 특정 시점(technical report 작성 시)의 평가이며, 지속적인 업데이트 가능성.
편집자 한 줄
5개 모달리티를 단일 아키텍처로 통합한 점은 인상적이지만, 실제 Physical AI 환경에서의 일반화 성능과 추론 효율성은 추가 검증이 필요해 보입니다.
- #omnimodal
- #world-model
- #nvidia
- #mixture-of-transformers
- #physical-ai
NVIDIA