Papers·1주 전
HölderPO: GRPO의 토큰 확률 집계를 일반화한 정책 최적화 — 수학 벤치마크 평균 54.9% 달성

GRPO의 토큰 수준 확률 집계 방식을 Hölder 평균으로 일반화한 HölderPO 프레임워크가 공개됐습니다. p 파라미터를 통해 경사 집중도와 분산을 조절하며, 학습 과정에서 p를 점진적으로 변화시키는 동적 어닐링 알고리즘을 적용해 수렴 안정성을 높였습니다. 수학 벤치마크에서 평균 54.9% 정확도(GRPO 대비 7.2% 상대 개선)를, ALFWorld에서 93.8% 성공률을 기록했습니다. 단, 실험 설정과 하이퍼파라미터 민감도에 대한 추가 분석이 필요해 보입니다.
- #grpo
- #policy-optimization
- #reinforcement-learning
- #llm
- #mathematical-reasoning
Yuxiang Chen