← Back to feed
Papers·어제

NVIDIA, 2.6B 파라미터 오픈소스 월드 모델 SANA-WM — 60초 720p 영상 생성, 카메라 제어 정밀도 향상

NVIDIA, 2.6B 파라미터 오픈소스 월드 모델 SANA-WM — 60초 720p 영상 생성, 카메라 제어 정밀도 향상

NVIDIA가 2.6B 파라미터의 오픈소스 월드 모델 SANA-WM을 공개했습니다. 60초 분량의 720p 고해상도 영상을 단일 GPU에서 생성하며, 6-DoF 카메라 제어를 정밀하게 따릅니다. Hybrid Linear Attention과 Dual-Branch Camera Control 등 네 가지 핵심 설계로 효율성을 높였고, 213K 공개 비디오 클립만으로 학습해 64 H100에서 15일 만에 훈련을 완료했습니다. 기존 오픈소스 대비 액션 추종 정확도가 높고, 대규모 벤치마크 대비 36배 높은 처리량을 보이면서도 화질은 비슷한 수준입니다. 단, 60초 클립 생성 시 34초가 소요되는 distilled variant는 RTX 5090에서 NVFP4 양자화로 동작합니다.

  • #world-model
  • #video-generation
  • #nvidia
  • #camera-control
  • #efficient-attention
NVIDIA

Comments

— 첫 댓글을 남겨보세요 —