← Back to feed
Papers·어제

Tencent Hunyuan, 보상 기반 분포 정합 증류로 4-step 생성 SOTA — SD3/FLUX.2에서 선호도·심미·구성 모두 개선

Tencent Hunyuan, 보상 기반 분포 정합 증류로 4-step 생성 SOTA — SD3/FLUX.2에서 선호도·심미·구성 모두 개선

Tencent Hunyuan 팀이 제안한 RTDMD는 분포 정합 증류와 강화학습을 통합해 4 step 만으로 SD3, SD3.5, FLUX.2에서 선호도·심미·구성 메트릭 전반에 걸쳐 SOTA를 달성했습니다. 핵심은 보상 기울기 분포로 KL 발산을 최소화하는 과정을 분포 정합 항과 보상 최대화 항으로 분해하고, 첫 단계에서 Ambient-Consistent 분포 정합 증류(AC-DMD)로 fake score 모델을 안정화한 뒤, 두 번째 단계에서 GRPO 스타일 정책 그래디언트와 직접 보상 역전파를 혼합한 하이브리드 정책 그래디언트로 최적화합니다. 다만 4 step이라는 제약과 추가 보상 모델 학습이 필요하다는 점은 한계입니다.

  • #diffusion
  • #distillation
  • #reward-guided
  • #text-to-image
  • #tencent-hunyuan
Tencent Hunyuan

Comments

— 첫 댓글을 남겨보세요 —