Ships·1개월 전
Anthropic, 에이전트 코딩 벤치마크의 인프라 노이즈 문제 제기

Anthropic이 SWE-bench, Terminal-Bench 같은 에이전트 코딩 평가에서 인프라 설정 차이가 모델 성능 차이보다 더 큰 변동을 유발할 수 있음을 실험으로 보여줬습니다. Terminal-Bench 2.0에서 최적과 최악의 리소스 설정 간 격차가 6%p(p<0.01)에 달했으며, 자체 Kubernetes 환경에서는 작업의 6%가 인프라 오류로 실패했습니다. 평가의 신뢰성을 위해 리소스 할당과 제한을 일관되게 적용해야 한다고 강조합니다.
에이전트 코딩 벤치마크 점수는 종종 모델 성능의 정밀한 척도로 쓰이지만, 인프라 설정만으로도 그 차이가 무의미해질 수 있습니다.
핵심 발견
- 인프라 노이즈 — Terminal-Bench 2.0에서 리소스 설정에 따라 점수 차이가 최대 6%p 발생했으며, 이는 리더보드 상위권 모델 간 차이를 넘는 수준입니다.
- 오류율 — Anthropic의 Kubernetes 클러스터에서 작업의 6%가 모델 능력과 무관한 pod 오류로 실패했습니다.
- 리소스 적용 방식 — 리소스 스펙을 최소/최대 한도로 강제 적용한 구현과 단순 권장 사항으로 둔 경우 결과가 달라져, 평가가 실제로 측정하는 대상이 달라질 수 있습니다.
제한·주의
- Terminal-Bench 2.0은 작업별 CPU/RAM을 권장하지만, 이를 일관되게 강제하지 않으면 인프라 차이가 모델 성능 차이로 오인될 위험이 있습니다.
- 정적 벤치마크와 달리 에이전트 평가는 런타임 환경이 문제 해결 과정에 직접 관여하므로, 인프라 표준화가 필수적입니다.
편집자 한 줄
리더보드 점수 몇 % 차이에 일희일비하기 전에, 같은 환경에서 재현 가능한지 먼저 확인해야겠네요.
- #anthropic
- #benchmark
- #infrastructure
- #agentic-coding
- #eval
Anthropic