Papers·3일 전
Z-Image Turbo++: 2-step diffusion distillation 로 8-step 수준 화질 — 분포 정렬 GAN + 단계 분리 파라미터

Tongyi-MAI 팀이 8-step teacher 로부터 2-step generator 를 증류하는 Z-Image Turbo++ 를 공개했습니다. 분포 정렬 적대 학습(teacher 생성 이미지를 real sample 로 사용), 단계 분리 파라미터(두 step 각각 독립 파라미터), 종단간 학습+반복 정규화(step-1 loss 보존) 세 가지 설계로 2-step 과 8-step 간 화질 격차를 크게 좁혔습니다. 단, teacher 모델(Z-Image Turbo)이 8-step 이므로 추가 연산이 필요하다는 조건이 붙습니다.
Tongyi-MAI 가 2-step diffusion distillation 의 품질 한계를 세 가지 설계로 돌파한 Z-Image Turbo++ 를 발표했습니다.
핵심 결론
- 태스크 — 2-step image generation, 8-step teacher(Z-Image Turbo) 대비 화질 격차를 크게 축소.
- 정량 평가에서 FID, CLIP score 등이 8-step 에 근접했으며, 정성 평가에서도 유의미한 개선을 확인했습니다.
방법
- 분포 정렬 GAN — GAN 학습 시 real image 대신 teacher 생성 이미지를 real sample 로 사용해 분포 불일치를 줄이고 학습 안정성을 높였습니다.
- 단계 분리 파라미터 — 두 denoising step 에 독립적인 파라미터를 할당해 각 step 의 용량 요구를 더 잘 맞췄습니다.
- 종단간 학습+정규화 — 첫 step 이 최종 화질에 대한 gradient 를 받으면서도 step-1 loss 로 중간 생성물을 보존하는 반복 정규화를 도입했습니다.
한계·조건
- teacher 의존 — Teacher 모델이 8-step Z-Image Turbo 로, teacher 자체의 연산량이 필요합니다.
- 범위 — 현재 image generation 태스크에 한정되며, video 나 3D 로의 확장은 검증되지 않았습니다.
- 코드 — GitHub 공개 여부는 아직 확인되지 않았습니다.
편집자 한 줄
2-step distillation 의 실용적 진전이지만, teacher 의존성과 task 범위는 감안해야 할 부분입니다.
- #diffusion
- #distillation
- #image-generation
- #tongyi-mai
Tongyi-MAI