Papers·2일 전
PermaVid: 편집 후에도 일관성 유지하는 비디오 생성 — 멀티모달 메모리로 장기 일관성 개선

PermaVid는 편집 작업 후에도 시간과 시점에 걸쳐 일관된 비디오 생성을 유지하는 프레임워크입니다. RGB와 깊이 메모리 뱅크를 분리하여 의미적 외관과 기하학적 구조를 독립적으로 저장하고, 편집에 따라 메모리를 업데이트하는 전략을 통해 장기 일관성을 크게 향상시켰습니다. 기존 방법 대비 편집 후 의미적·구조적 일관성에서 SOTA를 달성했으나, 깊이 정보가 필요한 점이 적용 범위를 제한할 수 있습니다.
편집 후에도 비디오 일관성을 유지하는 멀티모달 메모리 기반 생성 모델 PermaVid가 공개되었습니다.
핵심 결론
- 태스크 — 편집(외관/레이아웃 변경) 후 비디오 생성에서 장기 의미·구조 일관성 유지.
- 성능 — 기존 SOTA 대비 편집 후 프레임 간 일관성 지표에서 유의미한 개선.
- 데이터 — 다양한 편집 시나리오(객체 추가/제거, 색상 변경 등)에서 평가.
방법
- 분리 메모리 — RGB 메모리(외관+암시적 기하)와 깊이 메모리(순수 기하)로 공간 컨텍스트를 분리 저장.
- 편집 인식 업데이트 — 편집 후 변경된 관측에 맞춰 메모리를 동적으로 업데이트하고 검색.
- 멀티모달 융합 — 두 메모리 뱅크에서 참조 조건을 추출하여 비디오 생성 모델에 주입.
한계·조건
- 입력 요구 — 깊이 정보를 필요로 하므로, 깊이 추정이 어려운 장면에서는 적용이 제한적입니다.
- 코드 공개 — 현재 Hugging Face 논문 페이지만 공개, 코드 및 모델 가중치는 미공개.
편집자 한 줄
편집 후 일관성 문제는 실용적 과제인데, 메모리 분리 아이디어는 직관적이면서도 효과적이네요. 다만 깊이 정보 의존도가 실제 사용성을 좌우할 듯.
- #video-generation
- #consistency
- #memory
- #editing
- #multi-modal
Shuai Yang