Papers·1개월 전

STARE: 서프라이즈 기반 토큰 수준 보상 재가중으로 GRPO 정책 엔트로피 붕괴 해결 — AIME24/25 4~8% 향상

Tencent Hunyuan 팀이 GRPO 기반 강화학습에서 발생하는 정책 엔트로피 붕괴(policy entropy collapse) 문제를 해결하는 STARE 방법을 제안했습니다. 토큰 수준의 credit assignment 불일치를 분석해 서프라이즈(surprisal)가 높은 토큰의 유효 어드밴티지를 선택적으로 재가중하고, 목표 엔트로피 폐루프 게이트로 안정적인 엔트로피 조절을 구현했습니다. 1.5B~32B 모델, Short/Long CoT, 멀티턴 도구 사용 태스크에서 수천 스텝 동안 안정적인 RL 훈련을 유지했으며, AIME24/25에서 DAPO 등 베이스라인 대비 4~8% 정확도 향상을 보였습니다. 코드는 공개되었습니다.

GRPO 기반 RL에서 정책 엔트로피가 급격히 붕괴하는 문제를 서프라이즈 기반 토큰 수준 보상 재가중으로 해결한 STARE 방법이 공개되었습니다.

핵심 결론

문제 — GRPO 훈련 중 정책 엔트로피 붕괴가 발생 — 토큰 수준 credit assignment 불일치가 원인.
성능 — AIME24/25에서 DAPO 등 대비 4~8% 평균 정확도 향상, 반성 토큰(reflection tokens)과 응답 길이가 함께 증가.
범위 — 1.5B~32B 모델, Short/Long CoT, 멀티턴 도구 사용 태스크에서 수천 스텝 안정적 훈련 확인.

방법

분석 — 토큰 수준 엔트로피 변화를 궤적 어드밴티지와 다음 토큰 분포에 대한 엔트로피 민감도 함수의 곱으로 분해, 4분면 구조와 near-criticality 특성 발견.
STARE — 배치 내 서프라이즈 분위수로 엔트로피-크리티컬 토큰 부분집합을 식별, 이들의 유효 어드밴티지를 선택적으로 재가중.
조절 — 목표 엔트로피 폐루프 게이트(target-entropy closed-loop gate)를 도입해 안정적인 엔트로피 조절.

한계·조건

비용 — 서프라이즈 계산 및 재가중 로직이 추가되어 GRPO 대비 약간의 오버헤드 발생 가능.
일반화 — AIME 수학 벤치마크 위주 검증 — 다른 도메인(코드, 과학)에서의 효과는 추가 실험 필요.
코드 — GitHub 공개 완료 (https://github.com/hp-luo/STARE).

편집자 한 줄

엔트로피 붕괴를 단순히 규제(penalty)로 막는 대신, 토큰 수준 credit assignment 관점에서 원인을 분석하고 해결한 점이 인상적입니다.

#reinforcement-learning
#grpo
#entropy
#reasoning
#tencent

Tencent Hunyuan

원문 보기 →

STARE: 서프라이즈 기반 토큰 수준 보상 재가중으로 GRPO 정책 엔트로피 붕괴 해결 — AIME24/25 4~8% 향상

핵심 결론

방법

한계·조건

Comments