Papers·1개월 전

WildClawBench: 실제 CLI 환경에서 장기 에이전트 평가 — Claude Opus 4.7도 62.2%

Intern Large Models 팀이 실제 명령줄 환경에서 동작하는 60개 과제 벤치마크 WildClawBench를 공개했습니다. 각 과제는 평균 8분, 20회 이상의 도구 호출로 구성되며, Docker 컨테이너에서 실제 CLI 도구를 사용해 평가합니다. 19개 최신 모델 중 최고 성능은 Claude Opus 4.7의 62.2%였고, 같은 모델도 에이전트 프레임워크에 따라 최대 18%p 차이가 났습니다. 장기·네이티브 런타임 에이전트 평가가 아직 해결되지 않은 과제임을 보여줍니다.

#agent-benchmark
#cli
#long-horizon
#internlm

Intern Large Models

원문 보기 →

WildClawBench: 실제 CLI 환경에서 장기 에이전트 평가 — Claude Opus 4.7도 62.2%

Comments