Papers·6일 전
RL이 추론뿐 아니라 사실 지식 회상도 향상 — 27% 평균 개선
RL이 LLM의 추론 능력뿐 아니라 파라메트릭 지식 직접 회상에도 효과적임을 보인 연구입니다. zero-shot, one-hop, closed-book QA 설정에서 이진 보상만으로 RL을 적용한 결과, 세 모델군에서 평균 27%의 상대적 성능 향상을 기록했습니다. 메커니즘 분석 결과 RL은 새로운 사실을 학습하기보다 기존 지식의 확률 분포를 재분배해 정답을 신뢰성 있게 생성하도록 유도합니다. 흥미로운 점은 학습 데이터의 약 18%만 차지하는 가장 어려운 예제가 전체 성능 향상의 83%를 견인했다는 점입니다. 단, 이 실험은 chain-of-thought 없이 단일 홉 질문에 한정되었고, 사실 수준의 train-test 중복 제거를 적용한 조건입니다.
- #reinforcement-learning
- #llm
- #knowledge-recall
- #reasoning
Wanli Yang