Papers·3일 전
Z-Reward: 분산 기반 보상 모델링으로 텍스트-이미지 정렬 개선 — 27B teacher 89.6% 정확도

Tongyi-MAI 팀이 텍스트-이미지 post-training을 위한 보상 모델 프레임워크 Z-Reward를 제안했습니다. 기존 scalar나 pairwise 보상은 불확실성을 과도하게 압축하는 반면, Z-Reward는 teacher VLM이 rubric 점수 분포를 추론하고(Group-wise Direct Score Optimization, GDSO), student VLM이 추론 체인 없이도 그 분포를 모방(Reasoning-Internalized Score Distillation, RISD)하도록 학습합니다. 내부 평가셋에서 27B teacher는 89.6% human preference 정확도를, 9B student는 88.6%를 달성했으며, differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상을 보였습니다.
Tongyi-MAI가 시각적 선호도를 분포로 모델링하는 teacher-student 보상 프레임워크 Z-Reward를 공개했습니다.
핵심 결론
- 정확도 — 27B GDSO teacher가 89.6% human preference 정확도로 SFT, RewardDance, GRPO를 능가.
- Student — 9B RISD student는 88.6%로 OPD baseline을 넘고 큰 teacher에 근접.
- 최적화 — Differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상.
방법
- Teacher 학습 — Group-wise Direct Score Optimization(GDSO)으로 분포 기대값의 policy-gradient 보상과 점수 분포·격차에 대한 pointwise·pairwise 지도 학습을 결합.
- Student 학습 — Reasoning-Internalized Score Distillation(RISD)로 teacher의 추론 조건부 점수 분포를 compact VLM에 전이, 추론 시 명시적 추론 체인 불필요.
- Teacher는 대형 VLM으로 rubric 정렬 점수 분포를 추론하고, student는 그 분포를 직접 모방하도록 학습됩니다.
한계·조건
- 평가 — 내부 주석 평가셋 기준이며, 공개 벤치마크 결과는 아직 보고되지 않았습니다.
- 규모 — Teacher는 27B, student는 9B로 상당한 compute가 필요합니다.
- 코드 — 코드와 모델 공개 여부는 abstract에 명시되지 않았습니다.
편집자 한 줄
분포 기반 보상이 scalar 대비 얼마나 일반화되는지는 공개 벤치마크에서 추가 검증이 필요해 보입니다.
- #reward-model
- #text-to-image
- #alignment
- #tongyi-mai
- #vlms
Tongyi-MAI