Papers·3개월 전

Abstain-R1: 3B 모델, 보상 기반으로 답변 불가 질문에 대한 명시적 기권 및 설명 학습

미네소타 대학 연구진이 답변 불가능한 질문에 대해 추측이나 환각 없이 명시적으로 기권하고 누락된 정보를 설명하는 3B 모델 Abstain-R1을 제안했다. 제안된 clarification-aware RLVR 보상은 답변 가능한 질문에 대한 정확성과 답변 불가 질문에 대한 기권 및 설명을 동시에 최적화한다. Abstain-Test, Abstain-QA, SelfAware 벤치마크에서 Abstain-R1은 3B 규모로 DeepSeek-R1 등 대형 시스템과 경쟁력 있는 기권 성능을 보였으며, 이는 정교한 기권 행동이 단순한 규모 확장이 아닌 검증 가능한 보상 학습을 통해 습득될 수 있음을 시사한다.

#reinforcement-learning
#abstention
#clarification
#minnesota

Minnesota NLP

원문 보기 →

Abstain-R1: 3B 모델, 보상 기반으로 답변 불가 질문에 대한 명시적 기권 및 설명 학습

Comments