Ships·2개월 전

Anthropic, 에이전트 코딩 벤치마크의 인프라 노이즈 문제 제기

Anthropic이 SWE-bench, Terminal-Bench 같은 에이전트 코딩 평가에서 인프라 설정 차이가 모델 성능 차이보다 더 큰 변동을 유발할 수 있음을 실험으로 보여줬습니다. Terminal-Bench 2.0에서 최적과 최악의 리소스 설정 간 격차가 6%p(p<0.01)에 달했으며, 자체 Kubernetes 환경에서는 작업의 6%가 인프라 오류로 실패했습니다. 평가의 신뢰성을 위해 리소스 할당과 제한을 일관되게 적용해야 한다고 강조합니다.

에이전트 코딩 벤치마크 점수는 종종 모델 성능의 정밀한 척도로 쓰이지만, 인프라 설정만으로도 그 차이가 무의미해질 수 있습니다.

핵심 발견

인프라 노이즈 — Terminal-Bench 2.0에서 리소스 설정에 따라 점수 차이가 최대 6%p 발생했으며, 이는 리더보드 상위권 모델 간 차이를 넘는 수준입니다.
오류율 — Anthropic의 Kubernetes 클러스터에서 작업의 6%가 모델 능력과 무관한 pod 오류로 실패했습니다.
리소스 적용 방식 — 리소스 스펙을 최소/최대 한도로 강제 적용한 구현과 단순 권장 사항으로 둔 경우 결과가 달라져, 평가가 실제로 측정하는 대상이 달라질 수 있습니다.

제한·주의

Terminal-Bench 2.0은 작업별 CPU/RAM을 권장하지만, 이를 일관되게 강제하지 않으면 인프라 차이가 모델 성능 차이로 오인될 위험이 있습니다.
정적 벤치마크와 달리 에이전트 평가는 런타임 환경이 문제 해결 과정에 직접 관여하므로, 인프라 표준화가 필수적입니다.

편집자 한 줄

리더보드 점수 몇 % 차이에 일희일비하기 전에, 같은 환경에서 재현 가능한지 먼저 확인해야겠네요.

#anthropic
#benchmark
#infrastructure
#agentic-coding
#eval

Anthropic

원문 보기 →

Anthropic, 에이전트 코딩 벤치마크의 인프라 노이즈 문제 제기

핵심 발견

제한·주의

Comments