Papers·어제
GRAIL — GRPO 에 토큰 단위 보상 가중치를 더해 수학 추론 정확도 3.6% 향상

DeCLaRe Lab 이 GRPO 의 균일 보상 분배 문제를 해결하는 GRAIL 을 제안했습니다. gradient-activation saliency 로 각 토큰이 최종 정답에 기여한 정도를 측정해 advantage 를 재가중하는 방식입니다. Qwen3, R1-distilled, OctoThinker 계열 5개 모델에서 GRPO 대비 평균 정확도 3.60%, Pass@3 3.05% 개선을 확인했으며, process reward model 없이도 토큰 수준의 미세 정렬이 가능하다는 점이 핵심입니다.
GRPO 계열 강화학습에서 모든 토큰에 동일한 advantage 를 부여하는 관행을 개선한 토큰 단위 보상 재가중 기법 GRAIL 이 공개되었습니다.
핵심 결론
- 태스크 — 수학 추론 (MATH, GSM8K 등) 에서 GRPO 대비 평균 정확도 3.60% 향상.
- 모델 — Qwen3-1.7B/7B/14B, R1-distill-7B, OctoThinker-7B 등 5개 모델에서 일관된 개선.
- Pass@3 에서도 3.05% 상승해 생성 다양성도 유지하는 셈입니다.
방법
- 핵심 아이디어 — gradient-activation saliency 로 각 토큰의 최종 답변 민감도를 계산해 advantage 를 재가중.
- 직관 — 추론에 중요한 토큰(논리 전환점, 수식) 은 더 큰 gradient 를, 불용어나 반복은 작은 gradient 를 받도록 설계.
- PRM 같은 별도 보상 모델이 필요 없어 학습 비용이 GRPO 대비 거의 동일합니다.
한계·조건
- 벤치마크 — 수학 추론 태스크에 한정 — 코딩이나 일반 QA 로 일반화되는지는 아직 미확인.
- 재현성 — 코드는 공개되지 않았으나 방법 자체는 GRPO 코드베이스에 saliency 계산 모듈만 추가하면 되므로 재현 난이도는 낮은 편.
- 리소스 — saliency 계산에 추가 backward pass 가 필요하지만 GRPO 대비 wall-clock 시간 증가는 5% 미만이라고 합니다.
편집자 한 줄
PRM 없이 토큰 수준 신호를 얻는 접근은 실용적이지만, saliency 가 추론의 충실한 지표인지는 추가 분석이 필요해 보입니다.
- #reinforcement-learning
- #grpo
- #mathematical-reasoning
- #token-level-reward
- #dec-lare
Deep Cognition and Language Research (DeCLaRe) Lab