Papers·1개월 전

Echo-Forcing: 학습 없는 장면 메모리 프레임워크로 대화형 긴 영상 생성 — VBench-Long 최고 성능

자기회귀 비디오 확산 모델에서 프롬프트 전환, 장면 망각, 과거 회상 등 대화형 시나리오를 처리하기 위해 학습 없이 적용 가능한 장면 메모리 프레임워크 Echo-Forcing을 제안했습니다. 핵심은 기존 KV 캐시가 안정적 앵커와 최근 동역학을 동일한 정책으로 처리하는 문제를 계층적 시간 메모리, 장면 회상 프레임, 차이 기반 메모리 감쇠로 해결한 점입니다. VBench-Long 평가에서 긴 영상 생성과 대화형 생성 모두 최고 종합 성능을 기록했으며, 코드도 공개되었습니다.

#video-generation
#diffusion
#long-context
#memory
#huggingface

Mingqiang Wu

원문 보기 →

Echo-Forcing: 학습 없는 장면 메모리 프레임워크로 대화형 긴 영상 생성 — VBench-Long 최고 성능

Comments