Papers·1개월 전

AlphaGRPO: GRPO로 AR-Diffusion UMM의 멀티모달 생성 능력 향상 — GenEval 등 벤치마크에서 개선

AlphaGRPO는 AR-Diffusion 통합 멀티모달 모델(UMM)에 GRPO를 적용해 추가 cold-start 없이 생성 능력을 향상시킵니다. 핵심은 LLM으로 사용자 요청을 분해해 원자적 질문으로 평가하는 Decompositional Verifiable Reward(DVReward)로, 안정적이고 해석 가능한 피드백을 제공합니다. GenEval, TIIF-Bench, DPG-Bench, WISE 등에서 일관된 개선을 보였고, 편집 태스크(GEdit)에서도 학습 없이 성능 향상을 달성했습니다. 다만 8×A100 환경 기준으로 리소스 요구가 크다는 한계가 있습니다.

#grpo
#multimodal
#diffusion
#reinforcement-learning
#huggingface

Runhui Huang

원문 보기 →

AlphaGRPO: GRPO로 AR-Diffusion UMM의 멀티모달 생성 능력 향상 — GenEval 등 벤치마크에서 개선

Comments