Papers·6일 전
BetaPRM — 분포 기반 과정 보상 모델로 신뢰도까지 예측, 토큰 사용량 33% 절감

BetaPRM은 각 추론 단계의 성공 확률뿐 아니라 그 예측의 신뢰도까지 함께 출력하는 분포적 PRM입니다. Beta-Binomial 우도를 통해 신뢰도를 학습하며, 이 신뢰도 신호를 활용해 불확실한 후보에는 더 많은 연산을 할당하는 Adaptive Computation Allocation(ACA)을 제안했습니다. 네 가지 백본과 네 가지 추론 벤치마크 실험에서 Best-of-16 대비 정확도는 유지하면서 토큰 사용량을 최대 33.57% 줄였습니다.
- #process-reward-model
- #reasoning
- #beta-distribution
- #computation-allocation
- #huggingface
Huang's INTelligence lab