Papers·1개월 전

Tencent, 위치별 제약을 도입한 PPO 변형 CPPO — 수학 추론 정확도 3~5%p 향상

Tencent 팀이 기존 PPO 기반 RLVR 의 위치 무관한 제약을 개선한 CPPO(Cumulative Prefix-divergence Policy Optimization)를 제안했습니다. 초기 토큰에는 더 엄격한 제약을, 후반 토큰에는 완화된 제약을 적용하고, 누적 접두사 발산 예산을 추적해 오류 전파를 막는 방식입니다. 7B~70B 모델에서 수학 추론 정확도가 3~5%p 올랐지만, 학습 안정성 개선이 주된 기여로 보입니다.

Tencent 팀이 기존 PPO 기반 RLVR 의 위치 무관한 제약을 개선한 CPPO(Cumulative Prefix-divergence Policy Optimization)를 제안했습니다.

핵심 결론

태스크 — 수학 추론 (GSM8K, MATH) 에서 7B~70B 모델의 정확도를 기존 PPO 대비 3~5%p 향상.
안정성 — 학습 중 policy collapse 빈도가 절반 이하로 줄었다는 점이 특이합니다.

방법

위치 가중 — 초기 토큰일수록 더 엄격한 divergence limit 을 부과해 autoregressive drift 를 억제.
누적 예산 — Prefix 전체의 누적 발산을 추적해, 이미 크게 벗어난 경우 추가 발산을 동적으로 제한.
PPO 의 trust-region 을 token-level 로 확장한 셈인데, 구현은 masking rule 만 추가하면 돼서 가볍습니다.

한계·조건

벤치 — 수학 추론에 국한 — 코드 생성이나 긴 문맥 태스크에서의 효과는 아직 확인되지 않았습니다.
리소스 — PPO 와 동일한 compute budget 내에서 동작하지만, 누적 예산 추적에 약간의 메모리 오버헤드가 있습니다.
코드 — GitHub 공개 예정 — 현재는 논문과 figure 만 공개.

편집자 한 줄

PPO 의 위치 무관 제약이 생각보다 큰 병목이었을 수 있다는 점을 잘 짚은 접근입니다. 다만 수학 외 도메인에서도 통하는지 후속 연구가 필요해 보입니다.

#rlhf
#ppo
#reasoning
#tencent

Tencent-Hunyuan-Multimodal-RL

원문 보기 →

Tencent, 위치별 제약을 도입한 PPO 변형 CPPO — 수학 추론 정확도 3~5%p 향상

핵심 결론

방법

한계·조건

Comments