← Back to feed
Papers·4일 전

SANA-Streaming: RTX 5090 단일 GPU로 1280×704 실시간 비디오 편집 24FPS 달성

SANA-Streaming: RTX 5090 단일 GPU로 1280×704 실시간 비디오 편집 24FPS 달성

NVIDIA가 consumer GPU에서 실시간 스트리밍 비디오 편집을 가능하게 하는 SANA-Streaming을 공개했습니다. Hybrid Diffusion Transformer(softmax attention + linear layer 혼용), Cycle-Reverse Regularization(생성된 프레임으로부터 source 예측해 일관성 강화), Blackwell 최적화 MPQ 및 fused GDN kernel을 통해 RTX 5090 단일 GPU에서 1280×704 해상도 24FPS(end-to-end)를 달성, DiT core는 58FPS에 도달합니다. 기존 SOTA 대비 temporal coherence와 throughput 모두 우수하나, RTX 5090 전용 최적화라는 점이 한계입니다.

NVIDIA가 consumer GPU에서 실시간 스트리밍 비디오 편집을 가능하게 하는 SANA-Streaming을 공개했습니다.

핵심 결론

  • 해상도1280×704 실시간 편집을 단일 RTX 5090에서 24FPS(end-to-end)로 구현.
  • 속도DiT core는 58FPS로 동작, 기존 SOTA 대비 temporal coherence와 throughput 모두 개선.

방법

  • Hybrid DiT일부 블록에 softmax attention을 도입해 local modeling을 강화하면서 linear layer의 효율성 유지.
  • Cycle-Reverse생성된 콘텐츠로부터 source 프레임을 flow matching으로 예측해 semantic consistency를 강화하는 학습 전략. paired long video 없이도 temporal 일관성 확보.
  • 시스템 공동설계Fused GDN kernel과 Blackwell(RTX 5090)에 최적화된 Mixed-Precision Quantization(MPQ)로 Tensor Core 활용 극대화.

한계·조건

  • GPU 의존성RTX 5090 전용 최적화로, 다른 GPU에서의 성능은 검증되지 않음.
  • 코드논문 내 코드 공개 여부는 명시되지 않았으며, 현재 Hugging Face papers에서 abstract만 확인 가능.

편집자 한 줄

Blackwell 세대의 Tensor Core와 MPQ를 적극 활용한 점이 인상적이지만, RTX 5090 전용이라는 점이 보편성은 떨어집니다.

  • #video-editing
  • #diffusion
  • #nvidia
  • #real-time
  • #blackwell
NVIDIA
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —