Papers·어제

EnterpriseClawBench: 기업 에이전트 벤치마크 — 최고 설정도 0.663 점

Frontis AI 가 기업 내 실제 에이전트 세션에서 추출한 852개 태스크로 구성된 벤치마크 EnterpriseClawBench 를 공개했습니다. 각 태스크는 복원된 fixture, 재작성된 프롬프트, 역할·스킬 분류, 하드 룰, 의미 루브릭을 갖춥니다. 최고 성능은 Codex + GPT-5.5 조합에서 0.663 점으로, 단일 점수보다는 harness-모델 조합, 아티팩트 전달, 시각 품질, 비용, 런타임, 스킬 전이 등을 종합 평가해야 한다고 주장합니다. 데이터는 기업 내부 콘텐츠를 포함해 공개되지 않으며, 프로토콜과 코드만 재사용 가능합니다.

Frontis AI 가 기업 에이전트용 벤치마크 EnterpriseClawBench 를 발표했습니다. 실제 업무 세션에서 추출한 852개 태스크로 구성되며, 최고 성능은 0.663 점에 그칩니다.

핵심 결론

벤치 — EnterpriseClawBench 는 852개 재현 가능한 태스크로, 각각 fixture·프롬프트·역할·스킬·규칙·루브릭이 붙습니다.
최고 점수 — Codex + GPT-5.5 조합에서 0.663 점 — 단일 점수로는 에이전트 성능을 충분히 반영하지 못한다는 게 저자들의 주장입니다.

방법

데이터 구성 — 실제 기업 에이전트 세션 아카이브에서 태스크를 추출하고, 내부 콘텐츠는 제외한 프로토콜만 공개합니다.
평가 항목 — harness-모델 조합, 아티팩트 전달, 시각 품질, 비용, 런타임, 스킬 전이 등 다차원 평가를 제안합니다.

한계·조건

데이터 비공개 — 기업 내부 콘텐츠가 포함되어 벤치마크 데이터 자체는 공개되지 않으며, 구축 및 평가 프로토콜만 재사용 가능합니다.
코드 — GitHub 에서 프로토콜과 평가 코드를 공개합니다.

편집자 한 줄

기업 에이전트 평가의 복잡성을 잘 드러내는 벤치마크지만, 데이터 비공개로 인해 외부 재현이 어려운 점은 한계로 남습니다.

#enterprise-agent
#benchmark
#frontis-ai
#evaluation

Frontis AI

원문 보기 →

EnterpriseClawBench: 기업 에이전트 벤치마크 — 최고 설정도 0.663 점

핵심 결론

방법

한계·조건

Comments