← Back to feed
Papers·4일 전

WildClawBench: 실제 CLI 환경에서 장기 에이전트 평가 — Claude Opus 4.7도 62.2%

WildClawBench: 실제 CLI 환경에서 장기 에이전트 평가 — Claude Opus 4.7도 62.2%

Intern Large Models 팀이 실제 명령줄 환경에서 동작하는 60개 과제 벤치마크 WildClawBench를 공개했습니다. 각 과제는 평균 8분, 20회 이상의 도구 호출로 구성되며, Docker 컨테이너에서 실제 CLI 도구를 사용해 평가합니다. 19개 최신 모델 중 최고 성능은 Claude Opus 4.7의 62.2%였고, 같은 모델도 에이전트 프레임워크에 따라 최대 18%p 차이가 났습니다. 장기·네이티브 런타임 에이전트 평가가 아직 해결되지 않은 과제임을 보여줍니다.

  • #agent-benchmark
  • #cli
  • #long-horizon
  • #internlm
Intern Large Models

Comments

— 첫 댓글을 남겨보세요 —