Papers·1주 전
Google, RLVR cold-start 문제 해결 — Tsallis q-logarithm 으로 GRPO 대비 14.4% 향상

Google 팀이 RLVR(Reinforcement Learning from Verifiable Rewards)의 cold-start stalling 문제를 Tsallis q-logarithm 기반 손실 함수 J_Q로 해결했습니다. q=0(RLVR 극점)에서는 초기 성공 확률 p_0가 작을 때 수렴에 Ω(1/p_0) 시간이 걸리지만, q=1(밀도 추정 극점)에서는 Θ(log(1/p_0))로 단축됩니다. 제안된 Gradient-Amplified RL(GARL)과 Posterior-Attenuated Fine-Tuning(PAFT) 중 GARL(q=0.75)이 FinQA, HotPotQA, MuSiQue에서 cold-start를 효과적으로 탈출했으며, 특히 HotPotQA에서 maj@16 47.9점으로 GRPO 대비 +14.4를 기록했습니다. 단, warm-start 상황에서는 GARL이 불안정해질 수 있어 PAFT가 더 안정적인 선택이 될 수 있습니다.
- #rlvr
- #cold-start
- #tsallis
- #reinforcement-learning
Google