← Back to feed
Papers·어제

EnterpriseClawBench: 기업 에이전트 벤치마크 — 최고 설정도 0.663 점

EnterpriseClawBench: 기업 에이전트 벤치마크 — 최고 설정도 0.663 점

Frontis AI 가 기업 내 실제 에이전트 세션에서 추출한 852개 태스크로 구성된 벤치마크 EnterpriseClawBench 를 공개했습니다. 각 태스크는 복원된 fixture, 재작성된 프롬프트, 역할·스킬 분류, 하드 룰, 의미 루브릭을 갖춥니다. 최고 성능은 Codex + GPT-5.5 조합에서 0.663 점으로, 단일 점수보다는 harness-모델 조합, 아티팩트 전달, 시각 품질, 비용, 런타임, 스킬 전이 등을 종합 평가해야 한다고 주장합니다. 데이터는 기업 내부 콘텐츠를 포함해 공개되지 않으며, 프로토콜과 코드만 재사용 가능합니다.

Frontis AI 가 기업 에이전트용 벤치마크 EnterpriseClawBench 를 발표했습니다. 실제 업무 세션에서 추출한 852개 태스크로 구성되며, 최고 성능은 0.663 점에 그칩니다.

핵심 결론

  • 벤치EnterpriseClawBench 는 852개 재현 가능한 태스크로, 각각 fixture·프롬프트·역할·스킬·규칙·루브릭이 붙습니다.
  • 최고 점수Codex + GPT-5.5 조합에서 0.663 점 — 단일 점수로는 에이전트 성능을 충분히 반영하지 못한다는 게 저자들의 주장입니다.

방법

  • 데이터 구성실제 기업 에이전트 세션 아카이브에서 태스크를 추출하고, 내부 콘텐츠는 제외한 프로토콜만 공개합니다.
  • 평가 항목harness-모델 조합, 아티팩트 전달, 시각 품질, 비용, 런타임, 스킬 전이 등 다차원 평가를 제안합니다.

한계·조건

  • 데이터 비공개기업 내부 콘텐츠가 포함되어 벤치마크 데이터 자체는 공개되지 않으며, 구축 및 평가 프로토콜만 재사용 가능합니다.
  • 코드GitHub 에서 프로토콜과 평가 코드를 공개합니다.

편집자 한 줄

기업 에이전트 평가의 복잡성을 잘 드러내는 벤치마크지만, 데이터 비공개로 인해 외부 재현이 어려운 점은 한계로 남습니다.

  • #enterprise-agent
  • #benchmark
  • #frontis-ai
  • #evaluation
Frontis AI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —