Papers·1개월 전

Workspace-Bench: 대규모 파일 의존성 기반 AI 에이전트 벤치마크 — 최고 성능 68.7%, 인간 80.7%에 못 미쳐

Workspace-Bench는 실제 워크스페이스 환경에서 AI 에이전트가 이종 파일 간 의존성을 식별·추론·활용·갱신하는 능력을 평가하는 벤치마크입니다. 5개 작업자 프로필, 74개 파일 유형, 20,476개 파일(최대 20GB)로 구성된 워크스페이스에서 388개 태스크(총 7,399개 평가 기준)를 제공합니다. 4개 에이전트 프레임워크와 7개 기반 모델을 평가한 결과, 최고 성능이 68.7%로 인간(80.7%)에 크게 못 미쳤고 평균은 47.4%에 그쳐, 현재 에이전트의 워크스페이스 학습 능력이 아직 신뢰할 수준이 아님을 보여줍니다. 평가 비용을 약 70% 절감한 100개 태스크 서브셋(Workspace-Bench-Lite)도 함께 공개했습니다.

#ai-agents
#benchmark
#workspace-learning
#file-dependencies

Zirui Tang

원문 보기 →

Workspace-Bench: 대규모 파일 의존성 기반 AI 에이전트 벤치마크 — 최고 성능 68.7%, 인간 80.7%에 못 미쳐

Comments