Papers·4일 전
SANA-Streaming: RTX 5090 단일 GPU로 1280×704 실시간 비디오 편집 24FPS 달성

NVIDIA가 consumer GPU에서 실시간 스트리밍 비디오 편집을 가능하게 하는 SANA-Streaming을 공개했습니다. Hybrid Diffusion Transformer(softmax attention + linear layer 혼용), Cycle-Reverse Regularization(생성된 프레임으로부터 source 예측해 일관성 강화), Blackwell 최적화 MPQ 및 fused GDN kernel을 통해 RTX 5090 단일 GPU에서 1280×704 해상도 24FPS(end-to-end)를 달성, DiT core는 58FPS에 도달합니다. 기존 SOTA 대비 temporal coherence와 throughput 모두 우수하나, RTX 5090 전용 최적화라는 점이 한계입니다.
NVIDIA가 consumer GPU에서 실시간 스트리밍 비디오 편집을 가능하게 하는 SANA-Streaming을 공개했습니다.
핵심 결론
- 해상도 — 1280×704 실시간 편집을 단일 RTX 5090에서 24FPS(end-to-end)로 구현.
- 속도 — DiT core는 58FPS로 동작, 기존 SOTA 대비 temporal coherence와 throughput 모두 개선.
방법
- Hybrid DiT — 일부 블록에 softmax attention을 도입해 local modeling을 강화하면서 linear layer의 효율성 유지.
- Cycle-Reverse — 생성된 콘텐츠로부터 source 프레임을 flow matching으로 예측해 semantic consistency를 강화하는 학습 전략. paired long video 없이도 temporal 일관성 확보.
- 시스템 공동설계 — Fused GDN kernel과 Blackwell(RTX 5090)에 최적화된 Mixed-Precision Quantization(MPQ)로 Tensor Core 활용 극대화.
한계·조건
- GPU 의존성 — RTX 5090 전용 최적화로, 다른 GPU에서의 성능은 검증되지 않음.
- 코드 — 논문 내 코드 공개 여부는 명시되지 않았으며, 현재 Hugging Face papers에서 abstract만 확인 가능.
편집자 한 줄
Blackwell 세대의 Tensor Core와 MPQ를 적극 활용한 점이 인상적이지만, RTX 5090 전용이라는 점이 보편성은 떨어집니다.
- #video-editing
- #diffusion
- #nvidia
- #real-time
- #blackwell
NVIDIA