Papers·2개월 전

minWM: 오픈소스 프레임워크로 비디오 확산 모델을 실시간 인터랙티브 월드 모델로 전환

ShengShu-AI 팀이 비디오 확산 파운데이션 모델을 실시간 인터랙티브 비디오 월드 모델로 전환하는 풀스택 오픈소스 프레임워크 minWM을 공개했습니다. 양방향 T2V/TI2V 모델을 카메라 제어 가능한 소수 스텝 자기회귀 생성기로 변환하는 엔드투엔드 파이프라인을 제공하며, Wan2.1-T2V-1.3B와 HY1.5-TI2V-8B 등 다양한 백본에서 인스턴스화되었습니다. 단, 실시간 저지연 추론을 위해 몇 스텝 증류가 필요하고, 카메라 제어 품질은 학습 데이터의 궤적 다양성에 의존합니다.

비디오 확산 모델을 실시간 인터랙티브 월드 모델로 전환하는 오픈소스 프레임워크 minWM이 공개되었습니다.

핵심 결론

목표 — 양방향 T2V/TI2V 비디오 확산 모델을 카메라 제어 가능한 소수 스텝 자기회귀 월드 모델로 변환.
백본 — Wan2.1-T2V-1.3B 및 HY1.5-TI2V-8B에서 인스턴스화, cross-attention 및 MMDiT 아키텍처 모두 지원.
결과 — 기존 HY-WorldPlay 같은 월드 모델을 새로운 데이터 분포와 지연 시간 목표에 적응 가능.

방법

파이프라인 — 카메라 제어 파인튜닝 → AR 확산 학습 → 인과 ODE/일관성 증류 → 비대칭 DMD로 소수 스텝 생성기로 증류.
Causal Forcing — Causal Forcing / Causal Forcing++ 파이프라인을 도입하여 양방향 모델을 인과적 자기회귀 생성기로 전환.
모듈식 설계로 다양한 아키텍처에 확장 가능하며, 카메라 궤적 제어를 위한 조건부 주입 방식을 제공합니다.

한계·조건

증류 필요 — 실시간 저지연 추론을 위해 몇 스텝 증류가 필수적이며, 증류 품질이 최종 성능에 큰 영향을 미칩니다.
데이터 의존성 — 카메라 제어 품질은 학습 데이터의 궤적 다양성에 크게 의존합니다.
공개 — 코드, 체크포인트, 문서, 추론 코드가 GitHub에 공개되었습니다.

편집자 한 줄

비디오 월드 모델의 실시간화를 위한 엔드투엔드 레시피를 제공한다는 점에서 유용하지만, 증류 과정의 계산 비용이 만만치 않을 듯합니다.

#video-generation
#world-models
#diffusion
#open-source
#real-time

Min Zhao

원문 보기 →

minWM: 오픈소스 프레임워크로 비디오 확산 모델을 실시간 인터랙티브 월드 모델로 전환

핵심 결론

방법

한계·조건

Comments