Papers·1개월 전

DeltaRubric: 계획-실행 2단계로 MLLM 보상 모델 정확도 +22.6%p 개선

Tencent Hunyuan 팀이 MLLM 정렬을 위한 보상 모델의 '게으른 판단(lazy judging)' 문제를 해결하는 DeltaRubric을 제안했습니다. 기존 단일 단계 평가자는 언어 priors에 의존해 시각적 세부 검증을 소홀히 하는데, DeltaRubric은 불일치 계획자(Disagreement Planner)가 인스턴스별 검증 체크리스트를 생성하고, 체크리스트 검증자(Checklist Verifier)가 이를 실행하는 2단계 구조로 평가를 분해합니다. Qwen3-VL 4B/8B 모델에 적용한 결과, VL-RewardBench에서 각각 +22.6%, +18.8%의 정확도 향상을 보였습니다. 다만 4B/8B 소형 모델에만 검증되었고, 대형 모델에서의 일반화는 추가 실험이 필요합니다.

#mllm
#reward-model
#alignment
#tencent
#multimodal

Tencent Hunyuan

원문 보기 →

DeltaRubric: 계획-실행 2단계로 MLLM 보상 모델 정확도 +22.6%p 개선

Comments