Papers·1개월 전

KAIST, LLM 추론 탐색 효율화하는 NudgeRL 제안 — GRPO 대비 8배 적은 rollout으로 동등 성능

KAIST AI 팀이 RLVR(verifiable reward 기반 강화학습)에서 탐색 효율을 높이는 NudgeRL 프레임워크를 공개했습니다. 핵심은 Strategy Nudging으로, rollout마다 경량 전략 컨텍스트를 조건부로 주입해 다양한 추론 경로를 유도하는 방식입니다. 보상 신호를 컨텍스트 간/내부로 분해하고, 발견된 행동을 기본 정책에 증류하는 통합 목적 함수를 사용합니다. 다섯 개 수학 벤치마크 평균에서 NudgeRL이 최대 8배 많은 rollout을 사용한 GRPO를 능가했고, oracle 기반 RL 기준선보다도 높은 성능을 보였습니다. 코드는 공개되어 있으나, 실험은 8×A100 환경에서 수행된 점을 고려해야 합니다.

#reinforcement-learning
#llm
#reasoning
#kaist
#rlvr

KAIST AI

원문 보기 →

KAIST, LLM 추론 탐색 효율화하는 NudgeRL 제안 — GRPO 대비 8배 적은 rollout으로 동등 성능

Comments