Papers·2주 전
Virginia Tech, 정적 anchor 대신 adaptive state 로 비디오 동역학 개선 — autoregressive diffusion 에서 recurrent denoising

Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다. 기존 모델은 첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제하는데, 대신 매 chunk 마다 denoise 되는 hidden latent 를 도입해 시간을 상대적으로 처리합니다. 실험 결과 비디오 동역학이 크게 개선되어 더 풍부한 움직임과 자연스러운 장면 전환이 가능해졌습니다.
Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다.
핵심 결론
- 태스크 — Autoregressive video generation 에서 adaptive state 도입으로 비디오 동역학 개선.
- 효과 — 기존 anchor 방식 대비 더 풍부한 움직임과 자연스러운 장면 전환을 달성.
방법
- 문제 — 첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제, 정적 일관성 위주로 생성.
- 해결 — 매 chunk 마다 denoise 되는 hidden latent (adaptive state) 를 도입, 첫 프레임 대신 이전 state 와 현재 content 에 attention.
- 시간을 상대적으로 처리: 모든 generation step 이 동일한 positional structure 를 가지며 state transition 이 동일.
- Recurrence 도입: denoising 이 transition function, KV cache 가 carrier 역할, 외부 모듈 불필요.
한계·조건
- 벤치 — 구체적인 벤치마크 수치와 비교 대상이 abstract 에 명시되지 않아 정량적 개선폭은 확인 필요.
- 코드 — 코드 공개 여부는 아직 불명.
편집자 한 줄
첫 프레임 anchor 문제를 직관적으로 해결한 점이 흥미롭습니다. 다만 실험 규모와 정량적 결과가 더 필요해 보입니다.
- #autoregressive
- #video-diffusion
- #adaptive-state
- #virginia-tech
Virginia Tech