← Back to feed
Papers·3일 전

Alibaba, 확산 모델에 최적화된 잠재 공간 정리 — PAE 제안, gFID 1.03

Alibaba, 확산 모델에 최적화된 잠재 공간 정리 — PAE 제안, gFID 1.03

Alibaba 팀이 잠재 확산 모델의 토크나이저가 만드는 잠재 매니폴드의 성질을 분석하고, 확산에 친화적인 세 가지 조건(응집된 공간 구조, 국소적 연속성, 전역적 의미)을 규명했습니다. 기존 재구성 품질 위주 설계 대신, VFM 사전 지식과 섭동 정규화로 이 조건들을 명시적으로 학습하는 Prior-Aligned AutoEncoder (PAE)를 제안했고, ImageNet 256x256에서 RAE 대비 13배 빠른 수렴 속도와 gFID 1.03을 달성했습니다. 다만 VFM 의존성과 256x256 해상도에 국한된 실험 결과라는 점은 한계입니다.

alibaba-inc

Comments

— 첫 댓글을 남겨보세요 —