Papers·3일 전
SAVE: 자기지도 보상 모델 개선 — 가치 함수로 온폴리시 피드백을 활용해 6개 벤치마크에서 일관된 성능 향상

SAVE는 정책이 발전함에 따라 보상 모델(RM)이 정적인 훈련 데이터에 뒤처지는 문제를 해결하기 위해, 가치 함수를 앵커로 삼아 온폴리시 응답을 등급화하고 이를 RM 훈련에 재사용하는 자기지도 프레임워크입니다. RM 이점(advantage)을 계산하고 모호한 샘플을 필터링한 후 대비 목적 함수로 RM을 업데이트하는 방식인데, 6개 벤치마크에서 모두 기존 대비 우수한 성능을 보였고 GRPO, RLOO, GSPO 등 세 가지 RL 알고리즘과 다양한 정책 백본에서 일관된 개선을 확인했습니다. 다만, 이 프레임워크는 이미 훈련된 가치 함수와 RM이 필요하므로 처음부터 RM을 구축하는 비용 자체를 줄여주지는 않는다는 점은 유의할 만합니다.
정적 RM 훈련 데이터로는 진화하는 정책을 따라잡기 어렵다는 문제를 해결하기 위해, 온폴리시 피드백을 활용해 RM을 지속적으로 개선하는 자기지도 프레임워크 SAVE가 제안되었습니다.
핵심 결론
- 벤치마크 — 6개 벤치마크(예: HH-RLHF, UltraFeedback 등)에서 기존 RM 대비 일관된 성능 향상을 기록했습니다.
- 알고리즘 — GRPO, RLOO, GSPO 세 가지 RL 알고리즘과 다양한 정책 백본(예: Llama, Mistral)에서도 개선 효과가 유지되었습니다.
방법
- 핵심 아이디어 — 정책이 생성한 온폴리시 응답을 가치 함수(프롬프트별 value head)를 앵커로 삼아 등급화하고, 이를 RM 훈련의 감독 신호로 변환합니다.
- RM 이점 — RM 점수와 가치 함수의 차이를 RM 이점으로 계산해, 이점이 큰 샘플을 선별하고 모호한 샘플은 필터링합니다.
- 대비 목적 — 선별된 샘플 쌍에 대해 대비 손실(contrastive loss)을 적용해 RM을 업데이트합니다.
한계·조건
- 전제 조건 — 이미 훈련된 가치 함수와 RM이 필요하므로, 처음부터 RM을 구축하는 비용을 줄여주지는 않습니다.
- 재현성 — 코드와 데이터셋은 공개 예정이며, 실험은 8×A100 환경에서 수행되었습니다.
편집자 한 줄
온폴리시 피드백을 활용해 RM을 지속적으로 개선한다는 아이디어는 실용적이지만, 초기 RM의 품질에 따라 효과가 달라질 수 있어 추가 분석이 필요해 보입니다.
- #reward-model
- #rlhf
- #self-supervised
- #alignment
- #value-function
Xiaobo Wang