Papers·3일 전

Flow-OPD: Flow Matching 모델에 On-Policy Distillation 도입 — GenEval 63→92, OCR 59→94

Flow-OPD는 Flow Matching 기반 text-to-image 모델의 다중 태스크 정렬에서 발생하는 보상 희소성과 그래디언트 간섭 문제를 해결하기 위해, LLM 커뮤니티의 On-Policy Distillation(OPD)을 통합한 최초의 통합 프레임워크입니다. 단일 보상 GRPO로 도메인별 전문가 모델을 키운 후, Flow 기반 Cold-Start로 초기 정책을 세우고 on-policy 샘플링, 태스크 라우팅, 궤적 수준의 밀집 감독을 통해 이질적 전문성을 하나의 학생 모델로 통합합니다. 추가로 Manifold Anchor Regularization(MAR)로 순수 RL 정렬에서 흔한 미적 저하를 방지합니다. Stable Diffusion 3.5 Medium 기반에서 GenEval 63→92, OCR 정확도 59→94로 vanilla GRPO 대비 약 10점 향상되었으며, 교사 모델을 능가하는 효과도 관찰되었습니다.

#flow-matching
#reinforcement-learning
#text-to-image
#distillation
#alignment

Zhen Fang

원문 보기 →

Flow-OPD: Flow Matching 모델에 On-Policy Distillation 도입 — GenEval 63→92, OCR 59→94

Comments