Papers·1개월 전

Tsinghua, 프레임 단위 2-step AR로 실시간 비디오 생성 — Causal Forcing++

Tsinghua ML Group이 실시간 인터랙티브 비디오 생성을 위해 프레임 단위 1~2-step AR 방식의 Causal Forcing++를 제안했습니다. 기존 4-step chunk-wise 방식 대비 VBench Total 0.1, Quality 0.3, VisionReward 0.335 향상, 첫 프레임 지연 50% 감소, Stage 2 학습 비용 4배 절감했습니다. 핵심은 causal consistency distillation으로 AR 초기화를 효율적으로 최적화한 점이며, Genie3 스타일의 action-conditioned world model로 확장 가능합니다. 단, 1~2-step 생성은 여전히 학습 안정성과 모델 규모에 민감할 수 있습니다.

#video-generation
#diffusion
#autoregressive
#tsinghua

Tsinghua Machine Learning Group

원문 보기 →

Tsinghua, 프레임 단위 2-step AR로 실시간 비디오 생성 — Causal Forcing++

Comments