Papers·2개월 전

Virginia Tech, 정적 anchor 대신 adaptive state 로 비디오 동역학 개선 — autoregressive diffusion 에서 recurrent denoising

Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다. 기존 모델은 첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제하는데, 대신 매 chunk 마다 denoise 되는 hidden latent 를 도입해 시간을 상대적으로 처리합니다. 실험 결과 비디오 동역학이 크게 개선되어 더 풍부한 움직임과 자연스러운 장면 전환이 가능해졌습니다.

Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다.

핵심 결론

태스크 — Autoregressive video generation 에서 adaptive state 도입으로 비디오 동역학 개선.
효과 — 기존 anchor 방식 대비 더 풍부한 움직임과 자연스러운 장면 전환을 달성.

방법

문제 — 첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제, 정적 일관성 위주로 생성.
해결 — 매 chunk 마다 denoise 되는 hidden latent (adaptive state) 를 도입, 첫 프레임 대신 이전 state 와 현재 content 에 attention.
시간을 상대적으로 처리: 모든 generation step 이 동일한 positional structure 를 가지며 state transition 이 동일.
Recurrence 도입: denoising 이 transition function, KV cache 가 carrier 역할, 외부 모듈 불필요.

한계·조건

벤치 — 구체적인 벤치마크 수치와 비교 대상이 abstract 에 명시되지 않아 정량적 개선폭은 확인 필요.
코드 — 코드 공개 여부는 아직 불명.

편집자 한 줄

첫 프레임 anchor 문제를 직관적으로 해결한 점이 흥미롭습니다. 다만 실험 규모와 정량적 결과가 더 필요해 보입니다.

#autoregressive
#video-diffusion
#adaptive-state
#virginia-tech

Virginia Tech

원문 보기 →

Virginia Tech, 정적 anchor 대신 adaptive state 로 비디오 동역학 개선 — autoregressive diffusion 에서 recurrent denoising

핵심 결론

방법

한계·조건

Comments