Papers·3일 전
Poly-DPO: 시각적 선호 최적화 스케일링을 위한 알고리즘-데이터 이중 접근법

Ming Li 팀이 시각적 생성 모델의 선호 최적화 스케일링 문제를 다루며, 노이즈가 있는 데이터셋에서도 강건한 Poly-DPO 알고리즘과 대규모 고품질 데이터셋 ViPO를 제안했습니다. Poly-DPO는 DPO 목적 함수에 다항식 항을 추가해 데이터 분포에 따라 모델 신뢰도를 동적으로 조정하며, ViPO는 1024px 해상도의 100만 이미지 쌍과 720p+의 30만 비디오 쌍을 포함합니다. Pick-a-Pic V2 같은 노이즈 데이터셋에서 Poly-DPO는 GenEval 기준 SD1.5와 SDXL에서 각각 6.87, 2.32 포인트 향상되었으며, ViPO에서는 기존 데이터셋 대비 월등한 성능을 보였습니다. 흥미롭게도 ViPO에 Poly-DPO를 적용하면 표준 DPO로 수렴해, 데이터 품질이 충분할 때 복잡한 최적화가 불필요함을 시사합니다.
- #preference-optimization
- #visual-generation
- #dpo
- #dataset
- #ming-li
Ming Li