Papers·1개월 전

Oxford, AI가 과학적 진보를 예측할 수 있을까? CUSP 벤치마크로 평가한 한계

옥스퍼드 대학 연구팀이 AI 시스템의 과학적 진보 예측 능력을 평가하는 CUSP 벤치마크를 제안했습니다. 4,760건의 과학적 사건에 대해 프론티어 모델(GPT-4 등)을 테스트한 결과, 연구 방향 선택은 가능했지만 실제 진보 실현 여부와 시점 예측에서는 신뢰할 만한 성능을 보이지 못했습니다. 특히 생물학·화학·물리학 분야에서 예측이 어려웠으며, 모델은 과신 편향과 응답 편향을 보였습니다. 훈련 데이터 노출 여부보다는 사후 정보 접근이 성능에 더 큰 영향을 미쳐, AI가 과학적 진보를 예측하는 도구로서는 아직 부족함을 시사합니다.

#scientific-forecasting
#benchmark
#oxford
#ai-limitations

University of Oxford

원문 보기 →

Oxford, AI가 과학적 진보를 예측할 수 있을까? CUSP 벤치마크로 평가한 한계

Comments