Hypes·3시간 전
Gary Marcus "METR 벤치마크 포화? 새 과제에선 최고 모델도 13.4%" — 과장된 해석 경고
Gary Marcus 가 METR 코딩 벤치마크가 포화됐다는 트위터발 소동을 반박. METR 자체는 당황하지 않았고, 4주 후 Cognition 이 내놓은 새 과제 'FrontierCode Diamond' 에서 최고 모델 Claude Opus 4.8 도 13.4%에 그쳤다고 전하며 "여전히 많은 개선 여지가 있다"고 강조. 벤치마크 포화를 외치던 이들이 오히려 얼굴에 달걀을 맞은 셈.
- #garymarcus
- #metr
- #cognition
- #benchmark
- #claude
Gary Marcus@GaryMarcus