Papers·1개월 전

PiD: 픽셀 확산 디코더로 잠재 디코딩과 업스케일을 통합 — 4~8배 해상도, 1초 미만

NVIDIA 연구진이 잠재 공간의 디코더를 픽셀 확산 모델로 대체하는 PiD(Pixel diffusion Decoder)를 제안했습니다. 기존 VAE 디코더는 재구성에 최적화되어 세부 생성에 한계가 있고 고해상도에서 비용이 크지만, PiD는 조건부 픽셀 확산을 통해 4배, 8배 업스케일된 이미지를 저지연으로 생성합니다. sigma-aware adapter로 부분적으로 잡음이 제거된 잠재도 처리할 수 있어 조기 종료가 가능하고, DMD2 증류로 4 step만에 추론합니다. 512×512 잠재를 2048×2048 픽셀로 1초 이내(GB200 기준 210ms)에 디코딩하며, 메모리는 13GB(consumer RTX 5090)로 효율적입니다. 단, 픽셀 확산 모델의 학습 비용이 기존 디코더보다 높다는 점은 고려해야 합니다.

#pixel-diffusion
#decoder
#upsampling
#nvidia
#latent-diffusion

NVIDIA

원문 보기 →

PiD: 픽셀 확산 디코더로 잠재 디코딩과 업스케일을 통합 — 4~8배 해상도, 1초 미만

Comments