Papers·1개월 전

ExpRL: 보상 스캐폴딩으로 LLM 추론 강화 — 수학 추론에서 SFT·GRPO 대비 우수

Stanford 팀이 LLM 추론 능력을 향상시키기 위해 참조 해답을 보상 스캐폴드로 활용하는 RL 방법 ExpRL을 제안했습니다. 정책이 직접 해답을 보지 않고, LLM judge가 정책의 추론 과정을 참조와 비교해 부분 점수를 부여하는 방식으로, 희소 보상이 놓치는 중간 단계를 강화합니다. 수학 추론 태스크에서 SFT, 희소 보상 GRPO, 자기 증류보다 더 나은 RL 프라이밍 효과를 보였으며, 후속 희소 보상 RL의 초기화로도 유용했습니다.

Stanford 팀이 참조 해답을 보상 스캐폴드로 활용해 LLM 추론을 강화하는 ExpRL을 공개했습니다.

핵심 결론

태스크 — 수학 추론 벤치마크에서 ExpRL로 프라이밍된 모델이 SFT, GRPO, 자기 증류보다 더 나은 성능을 보였습니다.
후속 효과 — ExpRL로 초기화한 후 희소 보상 RL을 적용할 때도 더 높은 최종 성능에 도달했습니다.

방법

핵심 아이디어 — 참조 해답을 정책에 숨기고, LLM judge가 정책의 추론 과정을 참조와 비교해 outcome-level 또는 process-level의 조밀한 보상을 생성합니다.
차별점 — 참조를 단순 모방 대상이 아닌 평가 기준으로 사용해, 부분 진전이나 생산적인 추론 행동을 강화할 수 있다는 점이 특징입니다.

한계·조건

데이터 — 사람이 작성한 질문-답변 데이터를 대규모로 사용하며, 참조 해답이 필요합니다.
범위 — 주로 수학 추론에 초점을 맞췄지만, 혼합 도메인 실험에서도 확장 가능성을 보였습니다.

편집자 한 줄

참조를 단순히 따라 하는 게 아니라 평가 도구로 재정의한 발상이 흥미롭습니다. 다만 LLM judge의 비용과 일관성이 실용화의 관건이 될 듯합니다.

#reinforcement-learning
#llm-reasoning
#reward-scaffolding
#stanford

Stanford University

원문 보기 →

ExpRL: 보상 스캐폴딩으로 LLM 추론 강화 — 수학 추론에서 SFT·GRPO 대비 우수

핵심 결론

방법

한계·조건

Comments