← Back to feed
Papers·2주 전

Steady-Forcing: 장기 자연 영상 생성에서 안정성과 움직임의 균형을 잡는 방법

Steady-Forcing: 장기 자연 영상 생성에서 안정성과 움직임의 균형을 잡는 방법

서강대 연구팀이 고정 카메라 장기 자연 영상 생성에서 배경 안정성과 유체 운동(물, 불, 연기)의 자연스러움을 동시에 유지하는 Steady-Forcing 프레임워크를 제안했습니다. V-Sink(시각적 앵커), EMA-Sink(움직임 메모리), 블록 상대적 시간 인코딩, 주기적 캐시 정화, Wan2.1-14B 기반 증류 등을 결합해 다중 분 자동회귀 생성에서 배경 일관성과 유체 역학을 개선했습니다. 7개 베이스라인 대비 장기 배경 일관성과 화질이 향상되었으며, 블라인드 사용자 연구에서도 안정성과 움직임 연속성이 더 높게 평가되었습니다.

서강대 연구팀이 고정 카메라 장기 자연 영상 생성에서 배경 안정성과 유체 운동의 자연스러움을 동시에 유지하는 Steady-Forcing 프레임워크를 제안했습니다.

핵심 결론

  • 태스크고정 카메라 장기 자연 영상 생성(물, 불, 연기 등 유체 포함)에서 배경 안정성과 움직임 자연스러움을 동시에 개선.
  • 성능7개 베이스라인 대비 장기 배경 일관성과 화질 향상; 블라인드 사용자 연구에서 안정성과 움직임 연속성 더 높은 평가.
  • 문제기존 VBench 같은 종합 벤치마크는 고정 카메라 아티팩트를 과소평가하고, 드리프트로 인한 광학 흐름을 동적 정도로 보상하여 텍스처 경화나 흐름 정체를 직접 페널티하지 않음.

방법

  • V-Sink지속적인 시각적 앵커로 배경 정체성을 유지.
  • EMA-Sink지수 이동 평균 움직임 메모리로 자연스러운 유체 동역학을 유지.
  • 블록 상대적 시간 인코딩시간적 위치 정보를 블록 단위로 상대적으로 인코딩하여 장기 의존성 개선.
  • 주기적 캐시 정화자동회귀 생성 중 누적되는 오류를 주기적으로 제거.
  • 증류Wan2.1-14B 교사 모델로부터 움직임 보상 사전을 증류하여 안정성과 움직임 균형 학습.

한계·조건

  • 환경고정 카메라 설정에 특화되어 있으며, 움직이는 카메라에서는 효과가 검증되지 않음.
  • 벤치마크기존 VBench 같은 종합 벤치마크가 고정 카메라 특정 아티팩트를 적절히 반영하지 못해, 향후 태스크 특화 벤치마크 개발이 필요.
  • 코드프로젝트 페이지에서 데모와 논문 제공; 코드 공개 여부는 명시되지 않음.

편집자 한 줄

고정 카메라 자연 영상 생성이라는 좁은 태스크에 특화된 점이 흥미롭습니다. 배경 안정성과 움직임 자연스러움 사이의 트레이드오프를 정량적으로 분석한 점이 인상적이네요.

  • #video-generation
  • #diffusion-models
  • #long-horizon
  • #sogang-university
Sogang University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —