Papers·1주 전

ResRL: 부정 샘플 투영 잔차로 강화학습 다양성 유지 — 수학 추론 Avg@16 9.4% 향상

중국과학원 자동화연구소가 RLVR의 생성 다양성 저하 문제를 해결하는 ResRL(Residual Reinforcement Learning)을 제안했습니다. 기존 NSR이 긍·부정 응답 간 공유 의미 분포를 억누르는 반면, ResRL은 SVD 기반 저랭크 긍정 부분공간으로 부정 토큰의 은닉 표현을 투영하고 그 잔차로 음의 기울기를 조정해 추론 능력과 다양성을 동시에 개선합니다. 12개 벤치마크(수학, 코드, 에이전트 태스크, 함수 호출) 평균에서 강력한 기준선을 능가했으며, 수학 추론에서 NSR 대비 Avg@16 9.4%, Pass@128 7.0% 향상되었습니다. 단, 단일-포워드 프록시의 상한 추정이 정확하려면 충분한 배치 크기가 필요하다는 조건이 붙습니다.

#reinforcement-learning
#rlvr
#diversity
#reasoning
#chinese-academy-of-sciences

Chinese Academic of Science Institute of Automation

원문 보기 →

ResRL: 부정 샘플 투영 잔차로 강화학습 다양성 유지 — 수학 추론 Avg@16 9.4% 향상

Comments