Papers·1개월 전

Memento: 주제 재구성 가이드로 긴 영상 생성에서 등장인물 일관성 유지

Baidu 연구팀이 긴 영상 생성에서 등장인물의 신원 일관성을 유지하는 Memento 프레임워크를 제안했습니다. 기존의 샷별 생성 방식은 메모리에서 주제 증거가 희석되는 문제가 있었는데, Memento는 메모리 기반 주제 재구성 손실을 추가하여 이를 해결합니다. 듀얼 쿼리 메모리 메커니즘으로 장기 신원 정보와 단기 맥락을 분리해 검색하며, 주제 인식 데이터 파이프라인으로 정밀한 재구성 감독을 제공합니다. 실험 결과, 장기 주제 일관성과 샷 간 응집성에서 SOTA를 달성했습니다.

Baidu 연구팀이 긴 영상 생성에서 등장인물 일관성을 유지하는 Memento 프레임워크를 공개했습니다.

핵심 결론

태스크 — 긴 영상 생성에서 등장인물의 신원 일관성 유지.
성능 — 장기 주제 일관성, 샷 간 응집성, 시각 품질에서 SOTA 달성.

방법

핵심 아이디어 — 메모리 뱅크가 주제를 충실히 보존한다면 메모리만으로 주제를 재구성할 수 있어야 한다는 전제에서 출발합니다.
듀얼 쿼리 메모리 — 하나는 신원 관련 장기 메모리를, 다른 하나는 단기 키프레임을 검색해 샷 간 일관성을 유지합니다.
재구성 손실 — 자기회귀적 다음 샷 생성과 함께 메모리 기반 주제 재구성 손실을 공동 학습합니다.
데이터 파이프라인 — 주제 인식 시네마틱 데이터 파이프라인으로 대명사 없는 일관된 주제 설명을 제공해 재구성 감독을 정밀화합니다.

한계·조건

벤치마크 — 공개된 벤치마크에서 평가되었으나, 특정 도메인(예: 애니메이션)에서의 일반화는 추가 검증이 필요합니다.
코드 — 현재 논문만 공개되었으며, 코드 및 모델 공개 여부는 미정입니다.

편집자 한 줄

듀얼 쿼리 메모리로 장단기 정보를 분리한 설계가 인상적입니다. 다만 재구성 손실이 실제로 메모리 증거를 강화하는지에 대한 ablation이 더 있었으면 좋았을 것 같네요.

#video-generation
#long-form
#subject-consistency
#memory
#baidu

BAIDU

원문 보기 →

Memento: 주제 재구성 가이드로 긴 영상 생성에서 등장인물 일관성 유지

핵심 결론

방법

한계·조건

Comments