Papers·5일 전
Semi-DPO: 다차원 인간 선호를 이진 레이블로 압축할 때 생기는 잡음을 반지도 학습으로 해결

기존 Diffusion DPO는 다차원 인간 선호(미적, 디테일, 의미 정렬)를 단일 이진 레이블로 압축하면서 레이블 잡음이 발생하고, 이로 인해 충돌하는 그래디언트 신호가 최적화를 방해함을 이론적으로 증명했습니다. 제안하는 Semi-DPO는 일관된 쌍을 깨끗한 레이블로, 충돌하는 쌍을 잡음 레이블로 간주하여 반지도 학습을 수행합니다. 추가 주석이나 명시적 보상 모델 없이도 복잡한 인간 선호 정렬에서 SOTA 성능을 달성했으며, 코드와 모델은 공개 예정입니다.
- #diffusion
- #dpo
- #human-preferences
- #semi-supervised
- #image-generation
Xinxin Liu