← Back to feed
Papers·2주 전

Virginia Tech, 정적 anchor 대신 adaptive state 로 비디오 동역학 개선 — autoregressive diffusion 에서 recurrent denoising

Virginia Tech, 정적 anchor 대신 adaptive state 로 비디오 동역학 개선 — autoregressive diffusion 에서 recurrent denoising

Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다. 기존 모델은 첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제하는데, 대신 매 chunk 마다 denoise 되는 hidden latent 를 도입해 시간을 상대적으로 처리합니다. 실험 결과 비디오 동역학이 크게 개선되어 더 풍부한 움직임과 자연스러운 장면 전환이 가능해졌습니다.

Virginia Tech 팀이 autoregressive video diffusion 모델의 첫 프레임 anchor 문제를 해결하는 adaptive state 를 제안했습니다.

핵심 결론

  • 태스크Autoregressive video generation 에서 adaptive state 도입으로 비디오 동역학 개선.
  • 효과기존 anchor 방식 대비 더 풍부한 움직임과 자연스러운 장면 전환을 달성.

방법

  • 문제첫 프레임의 KV cache 가 고정 anchor 역할을 하며 장면 변화를 억제, 정적 일관성 위주로 생성.
  • 해결매 chunk 마다 denoise 되는 hidden latent (adaptive state) 를 도입, 첫 프레임 대신 이전 state 와 현재 content 에 attention.
  • 시간을 상대적으로 처리: 모든 generation step 이 동일한 positional structure 를 가지며 state transition 이 동일.
  • Recurrence 도입: denoising 이 transition function, KV cache 가 carrier 역할, 외부 모듈 불필요.

한계·조건

  • 벤치구체적인 벤치마크 수치와 비교 대상이 abstract 에 명시되지 않아 정량적 개선폭은 확인 필요.
  • 코드코드 공개 여부는 아직 불명.

편집자 한 줄

첫 프레임 anchor 문제를 직관적으로 해결한 점이 흥미롭습니다. 다만 실험 규모와 정량적 결과가 더 필요해 보입니다.

  • #autoregressive
  • #video-diffusion
  • #adaptive-state
  • #virginia-tech
Virginia Tech
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —