Papers·1개월 전

Skill-RM: 보상 모델링을 재사용 가능한 스킬로 통합 — RFT/RL 벤치마크에서 기존 judge 대비 일관된 우위

Tao Chen 팀이 보상 모델링을 하나의 재사용 가능한 'Reward-Evaluation Skill'로 재구성한 Skill-RM을 제안했습니다. 규칙 기반 검증기, 정답 참조, 절차 체크리스트, 복잡 루브릭 등 이질적 평가 기준을 통합된 인터페이스로 오케스트레이션하며, 각 입력에 맞춰 동적으로 증거를 선택·집계합니다. Best-of-N 선택과 RL downstream 모두에서 기존 judge 대비 일관된 성능 향상을 보였습니다. 코드는 공개되었습니다.

보상 모델(RM)은 LLM 후속 훈련(RFT/RL)에서 핵심 피드백 신호를 제공하지만, 현재 평가는 이질적 기준에 의존합니다. Skill-RM은 이를 하나의 재사용 가능한 스킬로 통합합니다.

핵심 결론

벤치 — 여러 보상 벤치마크와 Best-of-N·RL downstream에서 기존 judge 대비 일관된 우위를 기록했습니다.
모델 — Qwen 계열 기반으로 실험, 코드도 공개되어 재현 가능합니다.

방법

스킬 기반 — 보상 계산을 구조화된 에이전트 태스크로 보고, 규칙·참조·체크리스트·루브릭을 통합하는 인터페이스를 설계했습니다.
동적 증거 선택: 입력별로 필요한 증거 유형을 동적으로 선택·집계하여 정적 평가의 한계를 넘습니다.

한계·조건

리소스 — 에이전트 기반 오케스트레이션으로 인해 단순 judge보다 추론 비용이 추가로 듭니다.
범위 — 현재 Qwen 계열에 특화되어 있으며, 다른 아키텍처로의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

보상 모델링을 '스킬'로 추상화한 발상이 깔끔합니다. 다만 에이전트 호출 오버헤드가 실용성에 얼마나 영향을 줄지 지켜볼 점입니다.

#reward-modeling
#llm-post-training
#reinforcement-learning
#tao-chen

Tao Chen

원문 보기 →

Skill-RM: 보상 모델링을 재사용 가능한 스킬로 통합 — RFT/RL 벤치마크에서 기존 judge 대비 일관된 우위

핵심 결론

방법

한계·조건

Comments