Papers·1개월 전

GCPO: 토큰 단위 보상 할당으로 GRPO·DAPO 능가 — 텍스트-이미지·추론 벤치에서 일관 개선

UCLA 팀이 GRPO·DAPO 의 샘플 단위 보상 한계를 극복하는 Guidance Contrastive Policy Optimization (GCPO) 을 제안했습니다. 긍정·부정 프롬프트 대비 예측 차이를 토큰 단위 advantage 로 할당해, 텍스트-이미지 생성과 chain-of-thought 추론 모두에서 기존 대비 일관된 성능 향상을 보였습니다. 다만 실험은 특정 벤치마크에 국한되어 있어 일반화 가능성은 더 검증이 필요합니다.

UCLA 팀이 GRPO·DAPO 의 샘플 단위 보상 한계를 극복하는 GCPO 를 제안했습니다.

핵심 결론

벤치 — 텍스트-이미지 생성 (DrawBench, PartiPrompts) 과 chain-of-thought 추론 (GSM8K, MATH) 에서 GRPO·DAPO 대비 일관된 성능 향상.
개선폭 — 수치 구체적 언급은 없으나 "consistently outperforms" 로 요약됩니다.

방법

핵심 아이디어 — 긍정·부정 프롬프트 쌍을 준비해 모델 예측의 차이를 토큰 단위 advantage 로 사용합니다.
기존 GRPO·DAPO 가 샘플 전체에 동일한 advantage 를 부여한 반면, GCPO 는 토큰별로 차등 할당해 더 정밀한 학습 신호를 제공합니다.
직관 — 텍스트-이미지에서는 프롬프트와 정렬된 시각 영역이, 추론에서는 핵심 키워드가 더 높은 advantage 를 받는 식입니다.

한계·조건

벤치 범위 — 실험은 특정 벤치마크 (DrawBench, PartiPrompts, GSM8K, MATH) 에 국한되어 있어, 다른 도메인·태스크에서의 일반화는 추가 검증이 필요합니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

토큰 단위 credit 할당은 직관적으로 타당하지만, 부정 프롬프트 설계에 따른 민감도가 성능에 큰 영향을 줄 수 있어 ablation 이 궁금하네요.

#reinforcement-learning
#grpo
#gcpo
#ucla
#token-level-credit

University of California, Los Angeles

원문 보기 →

GCPO: 토큰 단위 보상 할당으로 GRPO·DAPO 능가 — 텍스트-이미지·추론 벤치에서 일관 개선

핵심 결론

방법

한계·조건

Comments