Papers·1개월 전

DiffusionOPD: 다중 태스크 보상 학습을 위한 온라인 정책 증류 — 텍스트-이미지에서 SOTA

DiffusionOPD는 텍스트-이미지 diffusion 모델을 다중 태스크 보상에 대해 학습시키는 새로운 패러다임입니다. 개별 태스크별 teacher를 먼저 학습한 뒤, student의 rollout 경로에서 지식을 증류하는 방식으로, 기존 joint RL의 태스크 간섭과 cascade RL의 망각 문제를 해결합니다. 이론적으로는 연속 상태 Markov 과정에 OPD를 확장하고, PPO 대비 분산이 낮은 closed-form KL 목적함수를 유도했습니다. 모든 평가 벤치마크에서 최고 성능을 기록했지만, teacher 학습에 추가 연산이 필요하다는 한계가 있습니다.

#diffusion
#reinforcement-learning
#multi-task
#text-to-image
#distillation

Quanhao Li

원문 보기 →

DiffusionOPD: 다중 태스크 보상 학습을 위한 온라인 정책 증류 — 텍스트-이미지에서 SOTA

Comments