Papers·1개월 전

Claw-SWE-Bench: 멀티 에이전트 코딩 벤치마크 — 어댑터 설계에 따라 OpenClaw 성능 19.1%→73.4%

TokenRhythm 팀이 다양한 에이전트 harness(OpenClaw 등)를 SWE-bench 스타일로 평가할 수 있는 멀티링궐 벤치마크 Claw-SWE-Bench를 공개했습니다. 350개 인스턴스(8개 언어, 43개 레포)로 구성되며, 동일한 GLM 5.1 백본에서 OpenClaw의 어댑터 설계에 따라 Pass@1이 19.1%에서 73.4%로 크게 차이 나는 점이 핵심입니다. 모델 선택과 harness 선택이 각각 29.4pp, 27.4pp의 성능 차이를 유발하며, 비용도 주요 평가 축으로 포함한 점이 특징입니다.

TokenRhythm 팀이 다양한 에이전트 harness를 공정하게 비교할 수 있는 SWE-bench 스타일 벤치마크 Claw-SWE-Bench를 공개했습니다.

핵심 결론

벤치마크 — 350개 GitHub 이슈 해결 인스턴스, 8개 언어, 43개 레포지토리로 구성.
성능 격차 — 동일 GLM 5.1 백본에서 OpenClaw 어댑터 설계에 따라 Pass@1이 19.1%에서 73.4%로 54.3pp 차이.
영향력 — 모델 선택이 29.4pp, harness 선택이 27.4pp 성능 차이를 유발.

방법

어댑터 프로토콜 — 고정 프롬프트, 런타임 예산, 워크스페이스 계약, 패치 추출, 평가자 등 5가지 축에서 harness를 표준화.
Lite 버전 — 80개 인스턴스로 구성된 저비용 검증용 서브셋을 비용 인식, 순위 인식 방식으로 선별.
비용 축 — API 비용을 평가의 첫 번째 축으로 포함하여, 유사 정확도라도 비용 차이가 큰 시스템을 구분.

한계·조건

데이터 — SWE-bench-Multilingual과 SWE-bench-Verified-Mini에서 future-commit 클린업 후 추출.
재현성 — 데이터와 코드는 GitHub 및 Hugging Face에 공개되어 재현 가능.
범위 — 현재 OpenClaw 계열 harness에 초점, 다른 harness family로의 일반화는 추가 검증 필요.

편집자 한 줄

어댑터 설계가 harness 성능에 미치는 영향이 생각보다 크네요. 비용을 평가 축에 포함한 점은 실무에서 유용할 만합니다.

#swe-bench
#coding-agent
#benchmark
#openclaw
#tokenrhythm

TokenRhythm

원문 보기 →

Claw-SWE-Bench: 멀티 에이전트 코딩 벤치마크 — 어댑터 설계에 따라 OpenClaw 성능 19.1%→73.4%

핵심 결론

방법

한계·조건

Comments