Papers·1개월 전

Qwen, few-step 증류 훈련 레시피 체계화 — Qwen-Image-Flash 로 4단계에서 원본 50단계 성능 근접

Qwen 팀이 few-step 증류(few-step distillation)의 훈련 레시피를 체계적으로 분석한 연구를 공개했습니다. 데이터 구성, 교사 안내(teacher guidance), 태스크 혼합(task mixture) 세 가지 요소를 Qwen-Image-2.0 기반으로 실험한 결과, 잘 설계된 목적 함수뿐 아니라 훈련 파이프라인의 원칙적 구성이 중요함을 보였습니다. 최종 모델 Qwen-Image-Flash는 4단계 샘플링으로 원본 50단계와 비슷한 수준의 텍스트-이미지 생성 및 지시 기반 이미지 편집 성능을 달성했습니다.

Qwen 팀이 few-step 증류에서 훈련 레시피의 영향을 체계적으로 분석하고, 이를 바탕으로 Qwen-Image-Flash를 개발했습니다.

핵심 결론

성능 — 4단계 샘플링으로 원본 50단계 모델(Qwen-Image-2.0)과 비슷한 수준의 생성 및 편집 성능을 달성.
범위 — 통합 텍스트-이미지 생성과 지시 기반 이미지 편집 두 태스크 모두에서 검증.

방법

데이터 구성 — 고품질 합성 데이터와 실제 데이터의 비율, 캡션 다양성 등이 증류 효율에 큰 영향을 미침.
교사 안내 — 교사 모델의 중간 특징(feature)을 활용하는 방식이 단순 출력 모방보다 더 나은 성능을 보임.
태스크 혼합 — 생성과 편집 태스크를 함께 증류할 때 각 태스크의 비율과 스케줄링이 중요하며, 적절한 혼합이 상호 성능을 향상시킴.

한계·조건

모델 특화 — 실험은 Qwen-Image-2.0 아키텍처에 국한되어 있어 다른 구조(예: DiT, MMDiT)로의 일반화는 추가 검증 필요.
코드 공개 — 현재 논문과 모델 가중치(Qwen-Image-Flash)는 공개되었으나, 훈련 코드 및 데이터셋은 공개되지 않음.

편집자 한 줄

증류 목적 함수 외에 훈련 파이프라인 자체를 체계적으로 분석한 점이 드물어 참고할 만합니다. 다만 Qwen-Image-2.0에 특화된 결과인 만큼 다른 모델 계열에서도 같은 경향이 나타나는지 지켜볼 필요가 있네요.

#distillation
#text-to-image
#image-editing
#qwen

Qwen

원문 보기 →

Qwen, few-step 증류 훈련 레시피 체계화 — Qwen-Image-Flash 로 4단계에서 원본 50단계 성능 근접

핵심 결론

방법

한계·조건

Comments