Hypes·20시간 전
Ethan Mollick, 업데이트된 Humanity's Last Exam 벤치마크 비판 — '좋은 벤치마크 아니다'

Ethan Mollick이 업데이트된 'Humanity's Last Exam' 벤치마크를 강하게 비판했습니다. '업데이트 전에도 좋은 벤치마크가 아니었고, 지금도 아니다. AI가 다른 AI의 답변을 공개된 문제로 평가하는 방식은 유의미하지 않다'고 지적하며, 인간 ELO 산정 방식도 불투명하다고 덧붙였습니다. 최근 이 벤치마크가 주목받는 상황에서 신뢰성 논란을 불러일으킨 셈입니다.
- #emollick
- #benchmark
- #humanitys-last-exam
- #ai-evaluation
Ethan Mollick@emollick