Papers·3개월 전

Perceval: 토큰 수준 보상으로 VLM 환각 제어 — RLVR 한계 극복

RUC-AIBOX 팀이 VLM 추론 과정에서 발생하는 환각을 토큰 수준에서 감지하고 보정하는 프로세스 보상 모델 Perceval을 공개했습니다. 기존 RLVR은 결과 단위 보상만 제공해 추론 체인 내 오류 진단이 어려웠으나, Perceval은 응답에서 이미지 관련 주장을 추출해 시각적 증거와 비교, 지각 오류가 포함된 구간에 페널티를 부과합니다. GRPO 대비 토큰 수준 이점을 적용해 미세한 감독 신호를 제공하며, 추론 시에는 오류 구간을 잘라내고 재생성 또는 반성 과정을 반복해 test-time scaling을 구현했습니다. 다양한 도메인 벤치마크에서 RL로 훈련된 여러 VLM의 성능을 유의미하게 개선했고, test-time scaling에서도 majority voting 등 전략보다 일관된 향상을 보였습니다. 코드와 데이터는 공개 예정입니다.

#vlm
#hallucination
#process-reward-model
#rlvr
#ruc-aibox

RUC-AIBOX

원문 보기 →

Perceval: 토큰 수준 보상으로 VLM 환각 제어 — RLVR 한계 극복

Comments