Papers·4일 전

Auto-Rubric as Reward: VLM 내재 선호를 명시적 루브릭으로 외부화해 정렬 효율 향상

OpenEnvision 팀이 제안한 ARR-RPO 프레임워크는 VLM의 내재된 선호 지식을 프롬프트별 루브릭으로 외부화하여 다차원 평가를 가능케 합니다. 이를 통해 위치 편향을 억제하고 제로샷 및 퓨샷 조건에서도 안정적인 보상 신호를 제공하며, 텍스트-이미지 생성 및 편집 벤치마크에서 기존 pairwise 보상 모델과 VLM 평가자를 능가했습니다. 단, 루브릭 생성에 추가적인 VLM 추론 비용이 필요하며, 복잡한 태스크에서는 루브릭의 완전성에 한계가 있을 수 있습니다.

#rlhf
#reward-modeling
#multimodal-alignment
#openenvision

OpenEnvision

원문 보기 →

Auto-Rubric as Reward: VLM 내재 선호를 명시적 루브릭으로 외부화해 정렬 효율 향상

Comments