Papers·2일 전
Next Forcing: 멀티 청크 예측으로 비디오 생성 학습 2.3배 가속 및 추론 2배 속도 향상

저자들은 autoregressive 비디오 생성에서 느린 학습 수렴과 제한된 정확도를 해결하기 위해 Next Forcing 프레임워크를 제안했습니다. 다중 미래 시간 지평선(next^1, next^2, next^3 청크)에서 비디오 청크를 동시에 denoise하는 MCP 훈련 목표를 도입하여, 50fps에서 LingBot-VA 대비 5k 훈련 스텝에서 93.1% 상대적 개선과 2.3배 빠른 수렴을 달성했으며, RoboTwin 벤치마크에서 SOTA(94.1/93.5% Clean/Random)를 기록했습니다. 추론 시 MCP 모듈을 유지하여 현재 청크와 병렬로 다음 청크를 예측함으로써 2배 추론 가속이 가능합니다. 단, 이 방법은 추가 MCP 모듈로 인한 파라미터 증가가 있으며, 고해상도에서의 효율성은 추가 검증이 필요합니다.
Autoregressive 비디오 생성의 느린 학습과 추론을 해결하는 Next Forcing: 다중 청크 예측으로 2.3배 빠른 수렴과 2배 추론 가속.
핵심 결론
- 성능 — 50fps에서 LingBot-VA 대비 5k 스텝 후 93.1% 상대적 개선, 2.3배 빠른 수렴.
- 벤치마크 — RoboTwin Clean/Random에서 94.1/93.5%로 SOTA, PhyWorld에서도 물리 법칙 준수 크게 개선.
- 추론 — MCP 모듈 유지 시 2배 추론 가속 달성.
방법
- MCP 훈련 — 주 모델에 경량 MCP 모듈을 추가하여 next^1, next^2, next^3 청크를 동시에 예측하도록 학습.
- 인과 체인 — MCP 모듈 간 예측 깊이에 따른 인과 체인을 형성, 중간 특징을 융합하여 미래 동역학 예측.
- 밀집 감독 — 다중 스케일 시간적 감독을 주 모델에 제공하여 고프레임에서도 빠른 수렴 유도.
한계·조건
- 파라미터 — MCP 모듈 추가로 인한 파라미터 증가가 있으며, 이는 메모리 사용량에 영향을 줄 수 있습니다.
- 일반화 — 고해상도(예: 4K)에서의 효율성과 성능은 아직 검증되지 않았습니다.
- 코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
편집자 한 줄
다중 청크 예측 아이디어는 LLM의 multi-token prediction에서 영감을 받았는데, 비디오 도메인에서도 유효함을 보여준 점이 인상적입니다. 다만 추가 모듈로 인한 오버헤드와 고해상도 확장성은 후속 연구가 필요해 보입니다.
- #video-generation
- #autoregressive
- #world-model
- #multi-chunk-prediction
Gangwei Xu