Papers·1개월 전

AutoRubric-T2I: VLM 평가 기준을 자동 생성해 사람 선호 반영 — 선호 데이터 0.01% 미만으로 기존 보상 모델 능가

AutoRubric-T2I는 텍스트-이미지 생성 모델 평가를 위해 VLM이 사용할 명시적 평가 루브릭을 자동으로 합성·선별하는 프레임워크입니다. 선호 쌍에서 추론 경로를 추출해 후보 루브릭을 만들고, L1 정규화 로지스틱 회귀로 가장 판별력 있는 항목을 골라 보상 신호로 활용합니다. MMRB2 벤치마크에서 기존 Bradley-Terry 보상 모델을 능가했으며, Flow-GRPO 파이프라인에 적용 시 TIIF, UniGenBench++에서 생성 품질이 향상되었습니다. 다만 VLM judge 자체의 성능에 의존적이며, 루브릭 선별 과정에서 추가 계산이 필요합니다.

#text-to-image
#reward-model
#vlm
#rubric-learning
#alignment

Arena

원문 보기 →

AutoRubric-T2I: VLM 평가 기준을 자동 생성해 사람 선호 반영 — 선호 데이터 0.01% 미만으로 기존 보상 모델 능가

Comments