Papers·1개월 전

온라인 강화학습으로 안전성과 생성 품질을 동시에 개선한 SafeDiffusion-R1

MBZUAI 연구팀이 CLIP 임베딩의 방향성 조작을 보상 신호로 활용해, 별도의 안전 보상 모델이나 지도 데이터 없이 확산 모델의 유해 콘텐츠 생성을 18.07%까지 낮추고(기존 SD v1.4 48.9%) 누드 검출을 15건(기존 646건)으로 줄인 온라인 RL 프레임워크를 제안했습니다. GRPO 기반 온라인 정책 학습으로 오프라인 방식의 치명적 망각 문제를 피했으며, GenEval에서 구성 생성 품질도 42.08%에서 47.83%로 향상시켰습니다. 단, 이 결과는 7개 유해 범주에 대한 out-of-domain 일반화에서도 SOTA를 달성했지만, 실험은 Stable Diffusion v1.4 기반이며 다른 아키텍처로의 확장성은 추가 검증이 필요합니다.

#diffusion-models
#safety
#reinforcement-learning
#grpo
#mbzuai

Mohamed Bin Zayed University of Artificial Intelligence

원문 보기 →

온라인 강화학습으로 안전성과 생성 품질을 동시에 개선한 SafeDiffusion-R1

Comments