← Back to feed
Papers·3일 전

NVIDIA LongLive-2.0, NVFP4 기반 긴 영상 생성 학습·추론 파이프라인 — 학습 2.15x, 추론 1.84x 가속

NVIDIA LongLive-2.0, NVFP4 기반 긴 영상 생성 학습·추론 파이프라인 — 학습 2.15x, 추론 1.84x 가속

NVIDIA가 NVFP4 정밀도를 활용해 긴 영상 생성의 학습과 추론 전체를 가속하는 LongLive-2.0을 공개했습니다. Balanced SP라는 시퀀스 병렬 AR 학습 방식을 도입해 teacher-forcing 마스크를 SP에 맞게 최적화하고, NVFP4로 메모리와 GEMM 연산을 줄였습니다. 추론 시에는 W4A4 NVFP4 추론과 KV cache 양자화로 Blackwell GPU에서 1.84x 속도 향상을, 5B 모델 기준 45.7 FPS를 달성했습니다. 단, NVFP4 지원 GPU가 필요하고, non-Blackwell 환경에서는 SP 추론으로 속도를 맞추는 등 하드웨어 의존성이 있습니다.

  • #nvidia
  • #video-generation
  • #nvfp4
  • #long-context
  • #inference-optimization
NVIDIA

Comments

— 첫 댓글을 남겨보세요 —