Papers·1개월 전

DRPO: PPO의 ratio-clipping 대신 smooth divergence regularizer 로 LLM RL 안정화

Tencent 팀이 PPO/GRPO 의 ratio-clipping 이 분포 변화를 제대로 잡지 못하는 문제를 지적하며, hard mask 대신 smooth advantage-weighted quadratic regularizer 를 사용하는 DRPO 를 제안했습니다. DPPO 의 divergence 기반 trust region 을 유지하면서도 경계 너머에서도 보정 gradient 를 흘려주는 구조로, 다양한 모델 크기·아키텍처에서 학습 안정성과 효율이 개선되었다고 합니다. 다만 논문은 아직 코드 공개 전이며 벤치마크 범위가 공개되지 않아 재현성 확인은 좀 더 지켜봐야겠네요.

Tencent 팀이 PPO 계열 RL 의 ratio-clipping 이 long-tailed vocabulary 에서 분포 변화를 잘 반영하지 못하는 문제를 해결한 DRPO 를 공개했습니다.

핵심 결론

문제 — PPO/GRPO 의 ratio-clipping 은 중요도 비율이 분포 변화의 좋은 proxy 가 아니며, 특히 긴 꼬리 어휘에서 trust region 제어가 불안정합니다.
제안 — DRPO 는 DPPO 의 divergence 기반 hard mask 를 smooth advantage-weighted quadratic regularizer 로 대체해 경계 너머에서도 보정 gradient 를 제공합니다.
효과 — 다양한 모델 크기, 아키텍처, precision 설정에서 학습 안정성과 효율이 개선되었습니다.

방법

기존 한계 — DPPO 는 divergence 가 threshold 를 넘으면 gradient 를 아예 버리는 hard mask 를 써서, 경계 근처에서 정보 손실이 발생합니다.
DRPO — hard mask 대신 policy shift 에 대한 smooth advantage-weighted quadratic regularizer 를 추가해, divergence 가 커져도 연속적인 gradient weight 로 보정 신호를 유지합니다.
Trust region geometry 는 DPPO 와 동일하게 유지되면서, gradient 가 bounded 되고 continuous 해져서 수렴이 안정적입니다.

한계·조건

코드 — 현재 논문만 공개되었고 코드는 아직 공개되지 않았습니다.
벤치 — 구체적인 벤치마크와 데이터셋 정보가 abstract 에 없어, 어떤 태스크에서 얼마나 개선되었는지는 본문을 확인해야 합니다.
재현 — 모델 크기·아키텍처·precision 에 걸친 실험을 했다고 하나, 세부 조건이 공개되지 않아 재현성은 아직 미지수입니다.

편집자 한 줄

RLHF/RL post-training 이 보편화되면서 trust region 제어는 점점 더 정교해지는 추세인데, DRPO 는 hard mask 의 단점을 부드럽게 보완한 점이 인상적입니다. 코드가 공개되면 PPO 대체재로 쓸 만할지 직접 테스트해볼 수 있겠네요.

#reinforcement-learning
#llm
#ppo
#trust-region
#tencent

Tencent-Hunyuan-Multimodal-RL

원문 보기 →

DRPO: PPO의 ratio-clipping 대신 smooth divergence regularizer 로 LLM RL 안정화

핵심 결론

방법

한계·조건

Comments