Papers·4일 전
WildClawBench: 실제 CLI 환경에서 장기 에이전트 평가 — Claude Opus 4.7도 62.2%

Intern Large Models 팀이 실제 명령줄 환경에서 동작하는 60개 과제 벤치마크 WildClawBench를 공개했습니다. 각 과제는 평균 8분, 20회 이상의 도구 호출로 구성되며, Docker 컨테이너에서 실제 CLI 도구를 사용해 평가합니다. 19개 최신 모델 중 최고 성능은 Claude Opus 4.7의 62.2%였고, 같은 모델도 에이전트 프레임워크에 따라 최대 18%p 차이가 났습니다. 장기·네이티브 런타임 에이전트 평가가 아직 해결되지 않은 과제임을 보여줍니다.
- #agent-benchmark
- #cli
- #long-horizon
- #internlm
Intern Large Models