Papers·1개월 전

EleutherAI, 수학 연구 수준 추론 평가 벤치마크 Soohak 공개 — GPT-5 26.4%, 오픈웨이트 15% 미만

EleutherAI가 64명의 수학자가 직접 만든 439문제짜리 연구 수준 수학 벤치마크 Soohak을 발표했습니다. Challenge 서브셋에서 GPT-5가 26.4%, Claude-Opus-4.5가 10.4%를 기록했고, 오픈웨이트 모델들은 15% 미만으로 큰 격차를 보였습니다. 특히 모델이 부적절한 문제를 인지하고 추론을 중단하는 능력을 측정하는 refusal 서브셋에서 모든 모델이 50% 미만의 점수를 기록해, 새로운 최적화 목표를 제시합니다. 데이터셋은 오염 방지를 위해 2026년 말에 공개될 예정입니다.

#benchmark
#reasoning
#mathematics
#eleutherai

EleutherAI

원문 보기 →

EleutherAI, 수학 연구 수준 추론 평가 벤치마크 Soohak 공개 — GPT-5 26.4%, 오픈웨이트 15% 미만

Comments