Papers·1개월 전

Z-Image Turbo++: 2-step diffusion distillation 로 8-step 수준 화질 — 분포 정렬 GAN + 단계 분리 파라미터

Tongyi-MAI 팀이 8-step teacher 로부터 2-step generator 를 증류하는 Z-Image Turbo++ 를 공개했습니다. 분포 정렬 적대 학습(teacher 생성 이미지를 real sample 로 사용), 단계 분리 파라미터(두 step 각각 독립 파라미터), 종단간 학습+반복 정규화(step-1 loss 보존) 세 가지 설계로 2-step 과 8-step 간 화질 격차를 크게 좁혔습니다. 단, teacher 모델(Z-Image Turbo)이 8-step 이므로 추가 연산이 필요하다는 조건이 붙습니다.

Tongyi-MAI 가 2-step diffusion distillation 의 품질 한계를 세 가지 설계로 돌파한 Z-Image Turbo++ 를 발표했습니다.

핵심 결론

태스크 — 2-step image generation, 8-step teacher(Z-Image Turbo) 대비 화질 격차를 크게 축소.
정량 평가에서 FID, CLIP score 등이 8-step 에 근접했으며, 정성 평가에서도 유의미한 개선을 확인했습니다.

방법

분포 정렬 GAN — GAN 학습 시 real image 대신 teacher 생성 이미지를 real sample 로 사용해 분포 불일치를 줄이고 학습 안정성을 높였습니다.
단계 분리 파라미터 — 두 denoising step 에 독립적인 파라미터를 할당해 각 step 의 용량 요구를 더 잘 맞췄습니다.
종단간 학습+정규화 — 첫 step 이 최종 화질에 대한 gradient 를 받으면서도 step-1 loss 로 중간 생성물을 보존하는 반복 정규화를 도입했습니다.

한계·조건

teacher 의존 — Teacher 모델이 8-step Z-Image Turbo 로, teacher 자체의 연산량이 필요합니다.
범위 — 현재 image generation 태스크에 한정되며, video 나 3D 로의 확장은 검증되지 않았습니다.
코드 — GitHub 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

2-step distillation 의 실용적 진전이지만, teacher 의존성과 task 범위는 감안해야 할 부분입니다.

#diffusion
#distillation
#image-generation
#tongyi-mai

Tongyi-MAI

원문 보기 →

Z-Image Turbo++: 2-step diffusion distillation 로 8-step 수준 화질 — 분포 정렬 GAN + 단계 분리 파라미터

핵심 결론

방법

한계·조건

Comments