Papers·1개월 전

Tencent Hunyuan, 보상 기반 분포 정합 증류로 4-step 생성 SOTA — SD3/FLUX.2에서 선호도·심미·구성 모두 개선

Tencent Hunyuan 팀이 제안한 RTDMD는 분포 정합 증류와 강화학습을 통합해 4 step 만으로 SD3, SD3.5, FLUX.2에서 선호도·심미·구성 메트릭 전반에 걸쳐 SOTA를 달성했습니다. 핵심은 보상 기울기 분포로 KL 발산을 최소화하는 과정을 분포 정합 항과 보상 최대화 항으로 분해하고, 첫 단계에서 Ambient-Consistent 분포 정합 증류(AC-DMD)로 fake score 모델을 안정화한 뒤, 두 번째 단계에서 GRPO 스타일 정책 그래디언트와 직접 보상 역전파를 혼합한 하이브리드 정책 그래디언트로 최적화합니다. 다만 4 step이라는 제약과 추가 보상 모델 학습이 필요하다는 점은 한계입니다.

#diffusion
#distillation
#reward-guided
#text-to-image
#tencent-hunyuan

Tencent Hunyuan

원문 보기 →

Tencent Hunyuan, 보상 기반 분포 정합 증류로 4-step 생성 SOTA — SD3/FLUX.2에서 선호도·심미·구성 모두 개선

Comments