Papers·3주 전

GRPO 스타일 RLVR에서 토큰 집계 방식의 최적화 — Balanced Aggregation 제안

OpenMOSS 팀이 GRPO 스타일 강화학습에서 토큰 수준 정책 그래디언트 집계 방식의 차이를 분석하고, Balanced Aggregation(BA)을 제안했습니다. 표준 sequence aggregation은 긴 응답을 암묵적으로 가중 감소시키고, token aggregation은 부호-길이 결합을 유발하는 편향이 있음을 밝혔습니다. BA는 양성/음성 부분집합 내에서 토큰 평균을 따로 계산한 후 시퀀스 개수 기반 가중치로 결합하는 방식으로, Qwen2.5-Math-7B와 Qwen3-1.7B 모델로 6개 추론/코딩 벤치마크에서 훈련 안정성과 최종 성능을 일관되게 개선했습니다. 다만 BA의 효과는 응답 길이 변동과 양성-음성 길이 차이에 민감하므로, 집계 규칙 자체가 GRPO 설계의 중요한 축임을 시사합니다.

#rlvr
#grpo
#reinforcement-learning
#openmoss
#reasoning

OpenMOSS

원문 보기 →

GRPO 스타일 RLVR에서 토큰 집계 방식의 최적화 — Balanced Aggregation 제안

Comments