Papers·2개월 전

CorVer: Wikipedia 동시발생 통계로 RL 보상 신호를 대체 — TriviaQA +4.1pp, 학습 4.8~8.4배 빠름

UIC 팀이 지식 집약적 QA에서 RL의 보상 설계 문제를 해결하는 경량 프로세스 보상 CorVer를 제안했습니다. NLI 검증기나 LLM 판단 대신 Wikipedia 동시발생 통계를 문장 단위 신용으로 할당하고, 토큰 수준 advantage로 매핑합니다. 6개 모델(3B~14B)과 5개 QA 벤치마크에서 30개 셀 모두 개선, TriviaQA 평균 +4.1pp, 학습 속도 4.8~8.4배 향상. 단, 희소 개체에 대한 통계 신뢰도가 낮을 수 있다는 한계가 있습니다.

UIC 연구진이 RL 기반 지식 QA의 보상 설계 문제를 해결하기 위해 Wikipedia 동시발생 통계를 활용한 경량 프로세스 보상 CorVer를 공개했습니다.

핵심 결론

성능 — 6개 모델(3B~14B)과 5개 QA 벤치마크 조합 30개 셀 모두에서 raw baseline 대비 개선, TriviaQA 평균 +4.1pp.
비교 — 4개 신경 검증기 baseline 대비 20개 셀 중 18개에서 우위, 학습 속도는 4.8~8.4배 빠름.

방법

CorVer — Wikipedia 동시발생 통계를 문장 단위 신용 점수로 사용, 0.5B 추출기와 문장당 단일 말뭉치 조회만 필요.
정렬 — 문장 수준 신용을 토큰 수준 advantage로 간단히 매핑하여 RL 학습에 활용.

한계·조건

희소 개체 — 드문 개체에 대해 Wikipedia 통계 신뢰도가 낮아 보상이 부정확할 수 있음.
재현성 — 코드 공개 예정, 현재 논문 내 실험 설정만 확인 가능.

편집자 한 줄

신경 검증기 없이 통계 기반 보상으로도 경쟁력 있는 성능을 낸 점이 인상적이네요. 희소 개체 처리 개선이 후속 과제로 보입니다.

#reinforcement-learning
#reward-design
#qa
#wikipedia
#uic

University of Illinois Chicago

원문 보기 →

CorVer: Wikipedia 동시발생 통계로 RL 보상 신호를 대체 — TriviaQA +4.1pp, 학습 4.8~8.4배 빠름

핵심 결론

방법

한계·조건

Comments