Papers·1개월 전

Zhejiang University, 다중 보상 확산 모델 정렬 프레임워크 MARBLE — 5개 보상 동시 개선, 학습 속도 0.97x 유지

Zhejiang University 팀이 확산 모델 정렬에서 다중 보상을 동시에 최적화하는 MARBLE 프레임워크를 제안했습니다. 기존 가중합 방식은 샘플 수준 불일치로 인해 전문가 샘플의 신호가 희석되는 문제가 있었는데, MARBLE은 각 보상별 독립적인 advantage estimator를 유지하고 정책 그래디언트를 Quadratic Programming으로 통합합니다. SD3.5 Medium에서 5개 보상 모두를 개선했으며, 가중합 대비 80% 미니배치에서 음수였던 그래디언트 코사인을 일관되게 양수로 전환했습니다. 학습 속도는 베이스라인의 0.97배로 거의 손실이 없습니다.

#diffusion
#reinforcement-learning
#alignment
#zhejiang-university

Zhejiang University

원문 보기 →

Zhejiang University, 다중 보상 확산 모델 정렬 프레임워크 MARBLE — 5개 보상 동시 개선, 학습 속도 0.97x 유지

Comments