Hypes·2개월 전
Noam Brown "SWE-bench Verified 심각한 오염, 이제 더 어려운 평가로 넘어가야"

Noam Brown 이 SWE-bench Verified 가 모든 프론티어 모델에 대해 심각하게 오염(contaminated)되었고 문제 중 상당수가 결함(broken) 있다고 지적했습니다. "더 어렵고 오염되지 않은 코딩 평가로 넘어갈 때"라고 선언하며, 벤치마크 신뢰성 논란에 다시 불을 붙였네요. 최근 여러 모델이 SWE-bench에서 고득점을 기록한 직후라, 이 발언은 평가 지표 자체의 유효성을 흔드는 셈입니다.
- #noam-brown
- #swe-bench
- #contamination
- #coding-evals
- #ai-benchmarks
Noam Brown@polynoamial