Papers·1개월 전

Z-Reward: 분산 기반 보상 모델링으로 텍스트-이미지 정렬 개선 — 27B teacher 89.6% 정확도

Tongyi-MAI 팀이 텍스트-이미지 post-training을 위한 보상 모델 프레임워크 Z-Reward를 제안했습니다. 기존 scalar나 pairwise 보상은 불확실성을 과도하게 압축하는 반면, Z-Reward는 teacher VLM이 rubric 점수 분포를 추론하고(Group-wise Direct Score Optimization, GDSO), student VLM이 추론 체인 없이도 그 분포를 모방(Reasoning-Internalized Score Distillation, RISD)하도록 학습합니다. 내부 평가셋에서 27B teacher는 89.6% human preference 정확도를, 9B student는 88.6%를 달성했으며, differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상을 보였습니다.

Tongyi-MAI가 시각적 선호도를 분포로 모델링하는 teacher-student 보상 프레임워크 Z-Reward를 공개했습니다.

핵심 결론

정확도 — 27B GDSO teacher가 89.6% human preference 정확도로 SFT, RewardDance, GRPO를 능가.
Student — 9B RISD student는 88.6%로 OPD baseline을 넘고 큰 teacher에 근접.
최적화 — Differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상.

방법

Teacher 학습 — Group-wise Direct Score Optimization(GDSO)으로 분포 기대값의 policy-gradient 보상과 점수 분포·격차에 대한 pointwise·pairwise 지도 학습을 결합.
Student 학습 — Reasoning-Internalized Score Distillation(RISD)로 teacher의 추론 조건부 점수 분포를 compact VLM에 전이, 추론 시 명시적 추론 체인 불필요.
Teacher는 대형 VLM으로 rubric 정렬 점수 분포를 추론하고, student는 그 분포를 직접 모방하도록 학습됩니다.

한계·조건

평가 — 내부 주석 평가셋 기준이며, 공개 벤치마크 결과는 아직 보고되지 않았습니다.
규모 — Teacher는 27B, student는 9B로 상당한 compute가 필요합니다.
코드 — 코드와 모델 공개 여부는 abstract에 명시되지 않았습니다.

편집자 한 줄

분포 기반 보상이 scalar 대비 얼마나 일반화되는지는 공개 벤치마크에서 추가 검증이 필요해 보입니다.

#reward-model
#text-to-image
#alignment
#tongyi-mai
#vlms

Tongyi-MAI

원문 보기 →

Z-Reward: 분산 기반 보상 모델링으로 텍스트-이미지 정렬 개선 — 27B teacher 89.6% 정확도

핵심 결론

방법

한계·조건

Comments