← Back to feed
Papers·3일 전

Z-Reward: 분산 기반 보상 모델링으로 텍스트-이미지 정렬 개선 — 27B teacher 89.6% 정확도

Z-Reward: 분산 기반 보상 모델링으로 텍스트-이미지 정렬 개선 — 27B teacher 89.6% 정확도

Tongyi-MAI 팀이 텍스트-이미지 post-training을 위한 보상 모델 프레임워크 Z-Reward를 제안했습니다. 기존 scalar나 pairwise 보상은 불확실성을 과도하게 압축하는 반면, Z-Reward는 teacher VLM이 rubric 점수 분포를 추론하고(Group-wise Direct Score Optimization, GDSO), student VLM이 추론 체인 없이도 그 분포를 모방(Reasoning-Internalized Score Distillation, RISD)하도록 학습합니다. 내부 평가셋에서 27B teacher는 89.6% human preference 정확도를, 9B student는 88.6%를 달성했으며, differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상을 보였습니다.

Tongyi-MAI가 시각적 선호도를 분포로 모델링하는 teacher-student 보상 프레임워크 Z-Reward를 공개했습니다.

핵심 결론

  • 정확도27B GDSO teacher가 89.6% human preference 정확도로 SFT, RewardDance, GRPO를 능가.
  • Student9B RISD student는 88.6%로 OPD baseline을 넘고 큰 teacher에 근접.
  • 최적화Differentiable reward signal로 사용 시 SFT 대비 41.3% 순 선호도 향상.

방법

  • Teacher 학습Group-wise Direct Score Optimization(GDSO)으로 분포 기대값의 policy-gradient 보상과 점수 분포·격차에 대한 pointwise·pairwise 지도 학습을 결합.
  • Student 학습Reasoning-Internalized Score Distillation(RISD)로 teacher의 추론 조건부 점수 분포를 compact VLM에 전이, 추론 시 명시적 추론 체인 불필요.
  • Teacher는 대형 VLM으로 rubric 정렬 점수 분포를 추론하고, student는 그 분포를 직접 모방하도록 학습됩니다.

한계·조건

  • 평가내부 주석 평가셋 기준이며, 공개 벤치마크 결과는 아직 보고되지 않았습니다.
  • 규모Teacher는 27B, student는 9B로 상당한 compute가 필요합니다.
  • 코드코드와 모델 공개 여부는 abstract에 명시되지 않았습니다.

편집자 한 줄

분포 기반 보상이 scalar 대비 얼마나 일반화되는지는 공개 벤치마크에서 추가 검증이 필요해 보입니다.

  • #reward-model
  • #text-to-image
  • #alignment
  • #tongyi-mai
  • #vlms
Tongyi-MAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —