Papers·2주 전
minWM: 오픈소스 프레임워크로 비디오 확산 모델을 실시간 인터랙티브 월드 모델로 전환

ShengShu-AI 팀이 비디오 확산 파운데이션 모델을 실시간 인터랙티브 비디오 월드 모델로 전환하는 풀스택 오픈소스 프레임워크 minWM을 공개했습니다. 양방향 T2V/TI2V 모델을 카메라 제어 가능한 소수 스텝 자기회귀 생성기로 변환하는 엔드투엔드 파이프라인을 제공하며, Wan2.1-T2V-1.3B와 HY1.5-TI2V-8B 등 다양한 백본에서 인스턴스화되었습니다. 단, 실시간 저지연 추론을 위해 몇 스텝 증류가 필요하고, 카메라 제어 품질은 학습 데이터의 궤적 다양성에 의존합니다.
비디오 확산 모델을 실시간 인터랙티브 월드 모델로 전환하는 오픈소스 프레임워크 minWM이 공개되었습니다.
핵심 결론
- 목표 — 양방향 T2V/TI2V 비디오 확산 모델을 카메라 제어 가능한 소수 스텝 자기회귀 월드 모델로 변환.
- 백본 — Wan2.1-T2V-1.3B 및 HY1.5-TI2V-8B에서 인스턴스화, cross-attention 및 MMDiT 아키텍처 모두 지원.
- 결과 — 기존 HY-WorldPlay 같은 월드 모델을 새로운 데이터 분포와 지연 시간 목표에 적응 가능.
방법
- 파이프라인 — 카메라 제어 파인튜닝 → AR 확산 학습 → 인과 ODE/일관성 증류 → 비대칭 DMD로 소수 스텝 생성기로 증류.
- Causal Forcing — Causal Forcing / Causal Forcing++ 파이프라인을 도입하여 양방향 모델을 인과적 자기회귀 생성기로 전환.
- 모듈식 설계로 다양한 아키텍처에 확장 가능하며, 카메라 궤적 제어를 위한 조건부 주입 방식을 제공합니다.
한계·조건
- 증류 필요 — 실시간 저지연 추론을 위해 몇 스텝 증류가 필수적이며, 증류 품질이 최종 성능에 큰 영향을 미칩니다.
- 데이터 의존성 — 카메라 제어 품질은 학습 데이터의 궤적 다양성에 크게 의존합니다.
- 공개 — 코드, 체크포인트, 문서, 추론 코드가 GitHub에 공개되었습니다.
편집자 한 줄
비디오 월드 모델의 실시간화를 위한 엔드투엔드 레시피를 제공한다는 점에서 유용하지만, 증류 과정의 계산 비용이 만만치 않을 듯합니다.
- #video-generation
- #world-models
- #diffusion
- #open-source
- #real-time
Min Zhao