Papers·1주 전
RLVR 학습에서 시간에 따라 신호 할당 기준을 변화시키는 Temporal Scheduling — 수학·일반 추론 벤치마크에서 일관된 개선

RLVR(Reinforcement Learning with Verifiable Rewards)에서 정책 최적화 시 토큰별 신호 할당 기준을 학습 과정 동안 동적으로 스케줄링하는 Temporal Scheduling을 제안했습니다. 초기에는 특정 정책 행동을 강조하는 토큰에 집중하고 점차 일반 최적화로 전환함으로써, 표준 방식 대비 정책 엔트로피 손실을 줄이고 안정적인 학습 동역학을 확보했습니다. 수학 및 일반 추론 벤치마크에서 일관된 성능 향상을 보였으나, 단순 궤적 백분위수 기반 스케줄링이라는 점에서 더 정교한 기준과의 비교가 필요해 보입니다.
RLVR에서 학습 신호를 어디에 할당할지뿐만 아니라 언제 할당할지가 중요하다는 관점에서, 시간에 따라 할당 기준을 변화시키는 Temporal Scheduling을 제안했습니다.
핵심 결론
- 성능 — 수학 및 일반 추론 벤치마크에서 표준 RLVR 대비 일관된 개선을 보였습니다.
- 효율 — 정책 엔트로피 손실이 줄어들어 더 건강한 정책 진화 동역학을 보였습니다.
방법
- 기존의 고정된 크레딧 할당 기준(예: token-level advantage reweighting)과 달리, 학습 과정에서 할당 기준을 스케줄링합니다.
- 직관 — 초기에는 특정 정책 행동(예: 높은 보상 토큰)에 집중하고, 점차 모든 토큰에 균일한 신호를 주는 방식으로 전환합니다.
- 구현 — 간단한 궤적 백분위수를 사용하여 정책 행동을 구분하고, 백분위 임계값을 학습 단계에 따라 선형적으로 변화시킵니다.
한계·조건
- 스케줄링 — 백분위수 기반 선형 스케줄링 외에 더 복잡한 스케줄(지수 감쇠 등)과의 비교는 없었습니다.
- 일반화 — 제안 방법은 RLVR 프레임워크에 의존하며, 다른 RL 설정(예: 온라인 RL)에서의 효과는 검증되지 않았습니다.
- 재현성 — 코드 공개 여부는 명시되지 않았으며, 실험에 사용된 모델 크기와 데이터셋 규모도 구체적으로 제시되지 않았습니다.
편집자 한 줄
간단한 아이디어지만 실용적으로 보입니다. 다만 백분위수 외의 기준과의 ablation이 있었다면 더 설득력 있었을 것 같네요.
- #rlvr
- #reinforcement-learning
- #credit-allocation
- #temporal-scheduling
- #llm
Jinghao Zhang