← Back to feed
Papers·3일 전

ByteDance Seed, 예측 학습으로 비디오 VAE 잠재 공간 개선 — 수렴 52% 가속, FVD 34.42 향상

ByteDance Seed, 예측 학습으로 비디오 VAE 잠재 공간 개선 — 수렴 52% 가속, FVD 34.42 향상

ByteDance Seed 팀이 비디오 VAE의 잠재 공간에 예측적 구조를 도입한 PV-VAE를 제안했습니다. 기존 VAE는 재구성 최적화가 생성 성능으로 이어지지 않는 문제가 있었는데, PV-VAE는 과거 프레임만 인코딩하고 디코더가 과거 재구성과 미래 예측을 동시에 수행하도록 학습시켜 잠재 공간이 시간적 일관성을 갖게 합니다. UCF101에서 Wan2.2 VAE 대비 수렴 속도 52% 향상, FVD 34.42 개선을 달성했으며, 다운스트림 비디오 이해 과제에서도 일관된 성능 향상을 보였습니다.

ByteDance Seed

Comments

— 첫 댓글을 남겨보세요 —