Papers·2일 전
Virginia Tech, spherical latent flow matching — ImageNet-256 FID 개선, 아키텍처 변경 없이

Virginia Tech 팀이 이미지 생성에서 latent flow matching의 선형 보간을 구면 선형 보간(spherical linear interpolation)으로 대체해 class-conditional ImageNet-256 FID를 일관되게 개선하는 방법을 제안했습니다. VAE latent의 radial/angular 분해를 통해 perceptual·semantic 정보가 주로 방향에 담겨 있음을 보이고, Gaussian noise와 data latent를 동일한 반지름의 구면 위에 투영한 뒤 geodesic 경로를 따라 flow matching을 수행합니다. 디코더만 fine-tuning하고 인코더는 고정하며, diffusion 아키텍처 자체는 전혀 바꾸지 않는다는 점이 특징입니다.
- #flow-matching
- #image-generation
- #latent-diffusion
- #vae
- #virginia-tech
Virginia Tech