← Back to feed
Papers·어제

Claw-SWE-Bench: 멀티 에이전트 코딩 벤치마크 — 어댑터 설계에 따라 OpenClaw 성능 19.1%→73.4%

Claw-SWE-Bench: 멀티 에이전트 코딩 벤치마크 — 어댑터 설계에 따라 OpenClaw 성능 19.1%→73.4%

TokenRhythm 팀이 다양한 에이전트 harness(OpenClaw 등)를 SWE-bench 스타일로 평가할 수 있는 멀티링궐 벤치마크 Claw-SWE-Bench를 공개했습니다. 350개 인스턴스(8개 언어, 43개 레포)로 구성되며, 동일한 GLM 5.1 백본에서 OpenClaw의 어댑터 설계에 따라 Pass@1이 19.1%에서 73.4%로 크게 차이 나는 점이 핵심입니다. 모델 선택과 harness 선택이 각각 29.4pp, 27.4pp의 성능 차이를 유발하며, 비용도 주요 평가 축으로 포함한 점이 특징입니다.

TokenRhythm 팀이 다양한 에이전트 harness를 공정하게 비교할 수 있는 SWE-bench 스타일 벤치마크 Claw-SWE-Bench를 공개했습니다.

핵심 결론

  • 벤치마크350개 GitHub 이슈 해결 인스턴스, 8개 언어, 43개 레포지토리로 구성.
  • 성능 격차동일 GLM 5.1 백본에서 OpenClaw 어댑터 설계에 따라 Pass@1이 19.1%에서 73.4%로 54.3pp 차이.
  • 영향력모델 선택이 29.4pp, harness 선택이 27.4pp 성능 차이를 유발.

방법

  • 어댑터 프로토콜고정 프롬프트, 런타임 예산, 워크스페이스 계약, 패치 추출, 평가자 등 5가지 축에서 harness를 표준화.
  • Lite 버전80개 인스턴스로 구성된 저비용 검증용 서브셋을 비용 인식, 순위 인식 방식으로 선별.
  • 비용 축API 비용을 평가의 첫 번째 축으로 포함하여, 유사 정확도라도 비용 차이가 큰 시스템을 구분.

한계·조건

  • 데이터SWE-bench-Multilingual과 SWE-bench-Verified-Mini에서 future-commit 클린업 후 추출.
  • 재현성데이터와 코드는 GitHub 및 Hugging Face에 공개되어 재현 가능.
  • 범위현재 OpenClaw 계열 harness에 초점, 다른 harness family로의 일반화는 추가 검증 필요.

편집자 한 줄

어댑터 설계가 harness 성능에 미치는 영향이 생각보다 크네요. 비용을 평가 축에 포함한 점은 실무에서 유용할 만합니다.

  • #swe-bench
  • #coding-agent
  • #benchmark
  • #openclaw
  • #tokenrhythm
TokenRhythm
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —