← Back to feed
Ships·8개월 전

GRPO에서 DAPO, GSPO로 — LLM 강화학습 최적화 진화 과정

GRPO에서 DAPO, GSPO로 — LLM 강화학습 최적화 진화 과정

Hugging Face 커뮤니티 글이 GRPO에서 DAPO, GSPO로 이어지는 LLM 강화학습 최적화 기법의 진화를 정리했습니다. PPO의 가치 모델 의존성을 제거한 GRPO의 한계(샘플링 비효율, MoE 구조에서의 불안정)를 DAPO가 클리핑·샘플링·그래디언트 계산을 개선하고, GSPO가 시퀀스 수준 최적화로 전환해 분산과 구조적 노이즈를 줄인 점이 핵심입니다. 실무자라면 Clip-Higher, Dynamic Sampling, Token-Level Gradient Loss 같은 세부 디자인을 이해하는 데 도움이 될 만한 글입니다.

Hugging Face

Comments

— 첫 댓글을 남겨보세요 —