Papers·3개월 전

HKU proposes SAVOIR — Shapley value credit assignment for social RL, 7B model matches GPT-4o on SOTOPIA

HKU 팀이 협력 게임 이론에 기반한 사회적 RL 프레임워크 SAVOIR를 제안했다. 기존의 사후적 보상 분배 대신, Shapley value로 각 발화의 전략적 잠재력을 공정하게 평가하여 신용 할당 문제를 해결한다. SOTOPIA 벤치마크에서 7B 모델이 GPT-4o, Claude-3.5-Sonnet 등 독점 모델과 동등한 성능을 달성했으며, 대형 추론 모델도 일관되게 저조해 사회적 지능이 분석적 추론과 다른 능력임을 시사한다.

#social-rl
#credit-assignment
#shapley-value
#sotopia
#hku

The University of Hong Kong

원문 보기 →

HKU proposes SAVOIR — Shapley value credit assignment for social RL, 7B model matches GPT-4o on SOTOPIA

Comments