← Back to feed
Hypes·2개월 전

Noam Brown "SWE-bench Verified 심각한 오염, 이제 더 어려운 평가로 넘어가야"

Noam Brown "SWE-bench Verified 심각한 오염, 이제 더 어려운 평가로 넘어가야"

Noam Brown 이 SWE-bench Verified 가 모든 프론티어 모델에 대해 심각하게 오염(contaminated)되었고 문제 중 상당수가 결함(broken) 있다고 지적했습니다. "더 어렵고 오염되지 않은 코딩 평가로 넘어갈 때"라고 선언하며, 벤치마크 신뢰성 논란에 다시 불을 붙였네요. 최근 여러 모델이 SWE-bench에서 고득점을 기록한 직후라, 이 발언은 평가 지표 자체의 유효성을 흔드는 셈입니다.

  • #noam-brown
  • #swe-bench
  • #contamination
  • #coding-evals
  • #ai-benchmarks
Noam Brown
Noam Brown@polynoamial

Comments

— 첫 댓글을 남겨보세요 —