Papers·1개월 전

AI 리뷰어, 인간 전문가보다 높은 평가 점수 — 45명 도메인 과학자 469시간 평가

CMU 연구팀이 AI 리뷰어의 능력을 대규모 전문가 주석 연구로 평가했습니다. 45명의 도메인 과학자가 82편의 Nature-family 논문에 대한 인간 및 AI 리뷰의 2,960개 비판을 정확성·중요성·증거 충분성 측면에서 평가한 결과, GPT-5.2 기반 리뷰어가 각 논문의 최고 평점 인간 리뷰어를 능가했고(60.0% vs 48.2%, p=0.009), 모든 AI 리뷰어가 최저 평점 인간보다 모든 차원에서 높았습니다. AI 리뷰어는 인간이 제기하지 않은 26%의 이슈를 추가로 발견했지만, 리뷰어 간 중복도가 높고(21% vs 3%), 하위 분야 지식 부족, 긴 컨텍스트 관리 취약, 사소한 문제에 과잉 비판 등 16가지 반복적 약점이 확인됐습니다. 연구진은 현재 AI 리뷰어를 인간 리뷰어의 보완재로, 대체재가 아니라고 결론지었습니다.

#ai-review
#peer-review
#gpt-5
#evaluation
#cmu

Carnegie Mellon University

원문 보기 →

AI 리뷰어, 인간 전문가보다 높은 평가 점수 — 45명 도메인 과학자 469시간 평가

Comments