Papers·1개월 전

ByteDance Seed, 예측 학습으로 비디오 VAE 잠재 공간 개선 — 수렴 52% 가속, FVD 34.42 향상

ByteDance Seed 팀이 비디오 VAE의 잠재 공간에 예측적 구조를 도입한 PV-VAE를 제안했습니다. 기존 VAE는 재구성 최적화가 생성 성능으로 이어지지 않는 문제가 있었는데, PV-VAE는 과거 프레임만 인코딩하고 디코더가 과거 재구성과 미래 예측을 동시에 수행하도록 학습시켜 잠재 공간이 시간적 일관성을 갖게 합니다. UCF101에서 Wan2.2 VAE 대비 수렴 속도 52% 향상, FVD 34.42 개선을 달성했으며, 다운스트림 비디오 이해 과제에서도 일관된 성능 향상을 보였습니다.

#video-vae
#predictive-learning
#latent-space
#bytedance
#video-generation

ByteDance Seed

원문 보기 →

ByteDance Seed, 예측 학습으로 비디오 VAE 잠재 공간 개선 — 수렴 52% 가속, FVD 34.42 향상

Comments