Papers·1주 전
uPRM: 인간 주석 없이도 PRM 수준의 보상 모델 — ProcessBench 15% 향상

Artyom Gadetsky 팀이 제안한 uPRM은 LLM의 next-token 확률로부터 첫 오류 단계를 식별하는 점수 함수를 정의해, 사람 주석 없이도 Process Reward Model 수준의 step-level 보상을 학습합니다. ProcessBench에서 첫 오류 식별 정확도가 LLM-as-a-Judge 대비 최대 15%p 향상되었고, test-time scaling에서 majority voting 대비 6.9% 개선, RL 훈련에서도 지도 PRM과 유사한 성능을 보였습니다. 단, 이 방법은 모델 내부 확률을 활용하므로 모델 접근성이 제한된 환경에서는 적용이 어려울 수 있습니다.
- #reward-modeling
- #prm
- #unsupervised
- #reasoning
- #llm
Artyom Gadetsky