← Back to feed
Papers·3일 전

NVIDIA Cosmos 3 — 언어·이미지·비디오·오디오·액션을 통합한 옴니모달 월드 모델

NVIDIA Cosmos 3 — 언어·이미지·비디오·오디오·액션을 통합한 옴니모달 월드 모델

NVIDIA가 언어, 이미지, 비디오, 오디오, 액션 시퀀스를 하나의 mixture-of-transformers 아키텍처로 처리·생성하는 Cosmos 3 패밀리를 공개했습니다. 단일 프레임워크로 비전-언어 모델, 비디오 생성기, 월드 시뮬레이터, 월드-액션 모델을 대체할 수 있으며, 다양한 이해·생성 태스크에서 SOTA를 달성했습니다. 단, 모델 규모와 학습 데이터셋 크기에 대한 구체적인 수치는 보고서에 명시되지 않았습니다.

NVIDIA가 언어·이미지·비디오·오디오·액션을 하나의 프레임워크로 통합한 옴니모달 월드 모델 Cosmos 3를 공개했습니다.

핵심 결론

  • 태스크언어·이미지·비디오·오디오·액션 시퀀스의 이해와 생성 — 단일 모델로 5개 모달리티를 처리.
  • 성능Text-to-Image, Image-to-Video에서 Artificial Analysis 최고 오픈소스 모델, RoboArena에서 최고 정책 모델로 선정.
  • 범위비전-언어, 비디오 생성, 월드 시뮬레이션, 액션 예측을 모두 아우르는 통합 평가.

방법

  • 아키텍처Mixture-of-Transformers (MoT) — 모달리티별 전문가를 혼합하여 유연한 입출력 구성 지원.
  • 옴니모달입력과 출력 조합이 자유로워, 예를 들어 이미지+텍스트 입력으로 비디오+오디오를 생성하거나, 액션 시퀀스를 조건으로 비디오를 예측할 수 있습니다.
  • 사전학습과 후속학습(post-training)을 통해 Physical AI 에이전트의 백본으로 사용 가능.

한계·조건

  • 공개코드, 모델 체크포인트, 합성 데이터셋, 평가 벤치마크를 Linux Foundation OpenMDW-1.1 라이선스로 공개.
  • 규모모델 파라미터 수, 학습 데이터 규모, 추론 비용 등 구체적인 수치는 보고서에 명시되지 않음.
  • 벤치마크가 특정 시점(technical report 작성 시)의 평가이며, 지속적인 업데이트 가능성.

편집자 한 줄

5개 모달리티를 단일 아키텍처로 통합한 점은 인상적이지만, 실제 Physical AI 환경에서의 일반화 성능과 추론 효율성은 추가 검증이 필요해 보입니다.

  • #omnimodal
  • #world-model
  • #nvidia
  • #mixture-of-transformers
  • #physical-ai
NVIDIA
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —