← Back to feed
Papers·3일 전

MuSS: 영화 3000편으로 구축한 멀티샷 비디오·S2V 데이터셋 — 서사 일관성과 복사-붙여넣기 문제 해결

MuSS: 영화 3000편으로 구축한 멀티샷 비디오·S2V 데이터셋 — 서사 일관성과 복사-붙여넣기 문제 해결

MuSS는 3000편 이상의 영화에서 추출한 대규모 듀얼트랙 데이터셋으로, 멀티샷 비디오 생성과 Subject-to-Video(S2V) 생성을 동시에 지원합니다. 점진적 캡셔닝 파이프라인으로 로컬 정확도와 글로벌 서사 일관성을 확보하고, 교차샷 매칭 메커니즘으로 S2V의 '복사-붙여넣기' 쇼트컷을 원천 차단합니다. 제안된 Cinematic Narrative Benchmark와 Anti-Copy-Paste Variance(ACP-Var) 메트릭으로 평가한 결과, MuSS로 학습한 모델이 기존 기준선 대비 서사 효과와 신원 유지에서 SOTA를 달성했습니다. 다만 3D 구조 일관성 평가는 아직 초기 단계입니다.

Haojie Zhang

Comments

— 첫 댓글을 남겨보세요 —