Papers·1개월 전

L2P: 사전 학습된 LDM 지식을 픽셀 공간으로 전이 — 8 GPU로 4K 생성, GenEval 93%

L2P는 사전 학습된 Latent Diffusion Model(LDM)의 중간 레이어를 고정하고 얕은 레이어만 학습해 latent-to-pixel 변환을 배우는 전이 패러다임입니다. VAE 대신 large-patch tokenization을 사용하고 LDM이 생성한 합성 이미지만으로 학습해 8 GPU로 빠르게 수렴하며, VAE 메모리 병목을 제거해 기본 4K 해상도 생성을 지원합니다. DPG-Bench에서 원본 LDM과 동등한 성능, GenEval에서 93% 성능을 달성했으나, 합성 데이터 의존성과 재현성에 대한 추가 검증이 필요합니다.

#latent-diffusion
#pixel-diffusion
#transfer-learning
#high-resolution
#efficient-training

Zhennan Chen

원문 보기 →

L2P: 사전 학습된 LDM 지식을 픽셀 공간으로 전이 — 8 GPU로 4K 생성, GenEval 93%

Comments