Papers·어제
Echo Infinity: 학습 가능한 진화 메모리로 실시간 무한 비디오 생성 — 24시간 롤아웃 최초 시연

Echo Infinity는 학습 가능한 메모리 쿼리를 도입해 기존의 고정 KV-cache 압축 방식을 대체, 비디오 길이와 무관한 일정 연산으로 무한 비디오 생성을 실현했습니다. 24시간(130만 프레임) 롤아웃을 최초로 시연했으며, 장단기 비디오 생성에서 SOTA를 달성했습니다. 단, DiT 기반 아키텍처에 최적화되어 있어 다른 구조로의 일반화는 추가 검증이 필요합니다.
Echo Infinity는 인간의 기억 통합 과정에서 영감을 받아, 학습 가능한 진화 메모리로 무한 비디오 생성을 실시간으로 가능하게 한 프레임워크입니다.
핵심 결론
- 성능 — 장단기 비디오 생성에서 SOTA 달성, 24시간(>130만 프레임) 실시간 롤아웃 최초 시연.
- 효율 — 비디오 길이와 무관한 일정 연산으로 무한 생성 가능.
방법
- 진화 메모리 — 과거 프레임이 로컬 윈도우에서 제거될 때, 학습 가능한 Memory Query가 attention과 게이팅 메커니즘으로 업데이트되어 임의 압축비를 지원합니다.
- RoPE 레시피 — Unified Relative RoPE Recipe로 sink 프레임을 id 0에 고정하고 최신 프레임 id를 최대 RoPE id까지 제한, train-test RoPE extrapolation 격차를 해소했습니다.
한계·조건
- 아키텍처 — DiT 기반에 최적화되어 있어 다른 생성 모델로의 일반화는 추가 연구 필요.
- 공개 — 코드 및 모델 가중치는 아직 공개되지 않았습니다.
편집자 한 줄
무한 비디오 생성이라는 오랜 숙제에 실용적인 접근을 제시한 점이 인상적입니다. 다만 24시간 롤아웃의 실제 시각적 품질과 일관성은 추가 공개를 기다려봐야 할 것 같습니다.
- #video-generation
- #autoregressive
- #memory
- #diffusion-transformer
- #huggingface
Yuxuan Bian