Papers·2일 전
Netflix Vera — 레이어 기반 비디오 편집, 콘텐츠 보존에서 SOTA

Netflix 팀이 비디오 편집에서 콘텐츠 보존 문제를 해결하는 Vera 프레임워크를 공개했습니다. 기존 방식이 모든 픽셀을 재생성해 캐릭터나 배경을 바꾸는 반면, Vera는 편집 레이어와 알파 매트를 생성해 소스와 합성함으로써 보존과 편집을 분리합니다. Mixture-of-Transformers 구조로 레이어 간 joint self-attention을 도입했고, 486K 프레임의 고품질 레이어드 데이터셋으로 학습해 콘텐츠 보존에서 기존 오픈소스 모델을 능가했습니다.
Netflix가 비디오 편집에서 콘텐츠 보존을 해결하는 레이어 기반 확산 프레임워크 Vera를 발표했습니다.
핵심 결론
- 태스크 — 콘텐츠 보존 비디오 편집 — 캐릭터나 배경 등 유지해야 할 요소를 변경하지 않으면서 원하는 편집 적용.
- 성능 — 정량 벤치마크와 인간 선호도 평가에서 콘텐츠 보존 측면에서 기존 오픈소스 모델 대비 SOTA, 편집 품질도 경쟁력 유지.
- 데이터 — 486K 프레임 규모의 고품질 레이어드 데이터셋으로 학습, 정확한 알파 매트와 다양한 장면·시각 효과 포함.
방법
- 레이어 분리 — 전체 비디오를 재생성하지 않고 편집 레이어와 알파 매트를 생성해 소스 비디오와 합성, 보존과 편집을 설계적으로 분리.
- MoT 구조 — 텍스트-투-비디오 DiT를 Mixture-of-Transformers로 확장, 각 레이어에 별도 DiT를 두고 joint self-attention으로 상호작용 유도.
- 데이터셋 — 정확한 알파 매트, 다양한 장면·모션·시각 효과를 갖춘 고품질 레이어드 데이터셋을 자체 구축해 학습에 활용.
한계·조건
- 데이터 규모 — 486K 프레임은 상대적으로 작은 규모로, 더 큰 데이터에서 일반화 성능이 어떻게 변할지는 추가 검증 필요.
- 공개 여부 — 현재 논문과 데이터셋은 공개되었으나 코드와 모델 가중치는 아직 공개되지 않았습니다.
- 편집 범위 — 레이어 기반 접근은 복잡한 다중 객체 편집이나 동적 조명 변화 등에서 한계가 있을 수 있습니다.
편집자 한 줄
레이어 분리 아이디어 자체는 직관적이지만, 이를 MoT와 결합해 실제 비디오 편집 파이프라인에 통합한 점이 인상적입니다. 다만 코드 공개가 아직이라 재현성은 지켜봐야 할 듯.
- #video-editing
- #diffusion
- #netflix
- #content-preservation
Netflix