Papers·1개월 전

Sphere Encoder 분리로 효율성 개선 — Animal-Faces, Oxford-Flowers, ImageNet-1K에서 생성 품질 및 속도 향상

MBZUAI 팀이 Sphere Encoder의 픽셀-잠재 공간 반복 전환과 목표 충돌 문제를 해결하기 위해, 고정된 사전 학습 이미지 인코더와 별도의 잠재 디노이징 모델을 분리하는 프레임워크를 제안했습니다. 재구성과 생성을 독립적으로 특화시키고 훈련/추론 시 픽셀 공간 연산을 제거해 효율성을 높였습니다. Animal-Faces, Oxford-Flowers, ImageNet-1K에서 기존 Sphere Encoder 대비 생성 품질과 추론 속도 모두 우수했으며, 강력한 few-step 및 multi-step baseline과 경쟁력 있는 결과를 보였습니다. 다만 제안 방법은 사전 학습된 인코더에 의존하므로 인코더 선택에 따른 성능 변화 가능성이 있습니다.

#few-step generation
#sphere encoder
#latent diffusion
#mbzuai

Mohamed Bin Zayed University of Artificial Intelligence

원문 보기 →

Sphere Encoder 분리로 효율성 개선 — Animal-Faces, Oxford-Flowers, ImageNet-1K에서 생성 품질 및 속도 향상

Comments