Papers·1개월 전

NVIDIA, 인터랙티브 비디오 월드 모델 추론 2.59배 가속 — Light Interaction

NVIDIA가 인터랙티브 비디오 월드 모델의 추론을 최대 2.59배 가속하는 학습 없는 프레임워크 Light Interaction을 공개했습니다. 핵심은 상호작용 특성을 활용한 적응형 컨텍스트 관리와 denoising cache, 3D block sparse attention입니다. HY-WorldPlay와 Matrix-Game-3.0에서 시각 품질을 유지하며 속도 향상을 확인했지만, 벤치마크와 하드웨어(H100)에 특화된 최적화라는 점은 감안해야 합니다.

NVIDIA가 인터랙티브 비디오 월드 모델의 추론을 최대 2.59배 가속하는 학습 없는 프레임워크 Light Interaction을 공개했습니다.

핵심 결론

속도 향상 — HY-WorldPlay와 Matrix-Game-3.0에서 최대 2.59x speedup, 시각 품질은 거의 유지.
방식 — 모델 재학습 없이 inference 단계에서만 적용 가능한 플러그인 프레임워크.

방법

적응형 컨텍스트 — 새로운 탐색 시 공간 메모리 폐기, 지역 잠재 동역학에 따라 시간 컨텍스트 조절.
Denoising cache — 카메라가 익숙한 영역을 재방문할 때 초기 step 출력을 재사용해 연산 절약.
3D block sparse attention — 하드웨어-소프트웨어 공동 설계로 fused Triton kernel 기반, attention 복잡도 감소.

한계·조건

하드웨어 — 벤치마크는 H100 GPU 기준, 다른 GPU에서의 성능은 추가 검증 필요.
벤치마크 — HY-WorldPlay와 Matrix-Game-3.0에 국한되어 일반화 가능성은 미확인.
코드 — 논문 내 코드 공개 여부 불명, 추후 공개 예정인지 확인 필요.

편집자 한 줄

학습 없이 추론만 가속한다는 점이 실용적이지만, 벤치마크와 하드웨어 의존성을 고려하면 실제 적용 시 추가 튜닝이 필요할 수 있습니다.

#interactive-video
#world-models
#inference-acceleration
#nvidia
#sparse-attention

NVIDIA

원문 보기 →

NVIDIA, 인터랙티브 비디오 월드 모델 추론 2.59배 가속 — Light Interaction

핵심 결론

방법

한계·조건

Comments