Papers·2일 전
DecQ: 8개 쿼리만으로 VAE 재구성-생성 트레이드오프 해결 — PSNR 19.13→22.76dB, FID 1.05

DecQ는 frozen vision foundation model(VFM) 기반 Representation Autoencoder(RAE)의 재구성-생성 트레이드오프를 해결하는 경량 프레임워크입니다. VFM 중간 특징에서 세부 정보를 추출하는 8개의 detail-condensing query를 도입해, 추가 연산 3.9%만으로 PSNR을 19.13dB에서 22.76dB로 크게 개선했습니다. 생성 측면에서는 RAE 대비 3.3배 빠른 수렴 속도를 보이며, guidance 없이 FID 1.41, guidance 적용 시 1.05를 달성했습니다. 다만 DINOv2 기반 실험에 국한되어 다른 VFM으로의 일반화는 추가 검증이 필요합니다.
- #representation-autoencoder
- #latent-diffusion
- #dino
- #image-generation
- #huggingface
Tianhang Wang