Papers·어제
CausalCine: 다중 샷 비디오 생성을 위한 인과적 오토리그레시브 프레임워크 — CAMR로 KV 캐시 동적 검색, 2배 이상 속도 향상

Ant Group 연구팀이 다중 샷 비디오 생성을 위한 인터랙티브 오토리그레시브 프레임워크 CausalCine을 공개했습니다. 기존 오토리그레시브 모델이 단일 샷 연장에 특화되어 장기 생성 시 모션 정체와 의미적 표류를 겪는 문제를 해결하기 위해, 샷 전환 간 인과적 생성과 동적 프롬프트 수용, 이전 샷 재생성 없이 컨텍스트 재사용을 가능하게 했습니다. 핵심은 Content-Aware Memory Routing (CAMR)으로, 시간적 근접성이 아닌 attention 기반 관련성 점수로 과거 KV 항목을 동적으로 검색해 제한된 메모리 내에서 샷 간 일관성을 유지합니다. 또한, 실시간 인터랙티브 생성을 위해 몇 단계 생성기로 증류했습니다. 실험 결과, 오토리그레시브 기준선을 크게 능가하고 양방향 모델에 근접하는 성능을 보였으며, 스트리밍 상호작용성을 제공합니다. 단, 다중 샷 데이터로 사전 학습된 인과 모델이 필요하고, CAMR의 추가 연산이 발생합니다.
- #video-generation
- #autoregressive
- #causal-model
- #memory-routing
- #ant-group
Ant Group