← Back to feed
Hypes·3시간 전

Gary Marcus "METR 벤치마크 포화? 새 과제에선 최고 모델도 13.4%" — 과장된 해석 경고

Gary Marcus 가 METR 코딩 벤치마크가 포화됐다는 트위터발 소동을 반박. METR 자체는 당황하지 않았고, 4주 후 Cognition 이 내놓은 새 과제 'FrontierCode Diamond' 에서 최고 모델 Claude Opus 4.8 도 13.4%에 그쳤다고 전하며 "여전히 많은 개선 여지가 있다"고 강조. 벤치마크 포화를 외치던 이들이 오히려 얼굴에 달걀을 맞은 셈.

  • #garymarcus
  • #metr
  • #cognition
  • #benchmark
  • #claude
Gary Marcus
Gary Marcus@GaryMarcus
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —