Papers·1개월 전

NVIDIA Cosmos 3 — 언어·이미지·비디오·오디오·액션을 통합한 옴니모달 월드 모델

NVIDIA가 언어, 이미지, 비디오, 오디오, 액션 시퀀스를 하나의 mixture-of-transformers 아키텍처로 처리·생성하는 Cosmos 3 패밀리를 공개했습니다. 단일 프레임워크로 비전-언어 모델, 비디오 생성기, 월드 시뮬레이터, 월드-액션 모델을 대체할 수 있으며, 다양한 이해·생성 태스크에서 SOTA를 달성했습니다. 단, 모델 규모와 학습 데이터셋 크기에 대한 구체적인 수치는 보고서에 명시되지 않았습니다.

NVIDIA가 언어·이미지·비디오·오디오·액션을 하나의 프레임워크로 통합한 옴니모달 월드 모델 Cosmos 3를 공개했습니다.

핵심 결론

태스크 — 언어·이미지·비디오·오디오·액션 시퀀스의 이해와 생성 — 단일 모델로 5개 모달리티를 처리.
성능 — Text-to-Image, Image-to-Video에서 Artificial Analysis 최고 오픈소스 모델, RoboArena에서 최고 정책 모델로 선정.
범위 — 비전-언어, 비디오 생성, 월드 시뮬레이션, 액션 예측을 모두 아우르는 통합 평가.

방법

아키텍처 — Mixture-of-Transformers (MoT) — 모달리티별 전문가를 혼합하여 유연한 입출력 구성 지원.
옴니모달 — 입력과 출력 조합이 자유로워, 예를 들어 이미지+텍스트 입력으로 비디오+오디오를 생성하거나, 액션 시퀀스를 조건으로 비디오를 예측할 수 있습니다.
사전학습과 후속학습(post-training)을 통해 Physical AI 에이전트의 백본으로 사용 가능.

한계·조건

공개 — 코드, 모델 체크포인트, 합성 데이터셋, 평가 벤치마크를 Linux Foundation OpenMDW-1.1 라이선스로 공개.
규모 — 모델 파라미터 수, 학습 데이터 규모, 추론 비용 등 구체적인 수치는 보고서에 명시되지 않음.
벤치마크가 특정 시점(technical report 작성 시)의 평가이며, 지속적인 업데이트 가능성.

편집자 한 줄

5개 모달리티를 단일 아키텍처로 통합한 점은 인상적이지만, 실제 Physical AI 환경에서의 일반화 성능과 추론 효율성은 추가 검증이 필요해 보입니다.

#omnimodal
#world-model
#nvidia
#mixture-of-transformers
#physical-ai

NVIDIA

원문 보기 →

NVIDIA Cosmos 3 — 언어·이미지·비디오·오디오·액션을 통합한 옴니모달 월드 모델

핵심 결론

방법

한계·조건

Comments