Papers·2일 전
멀티턴·멀티데이 에이전트 벤치마크 CoworkerBench — 최고 모델도 Task Success 20%

멀티턴·멀티데이 환경에서 지속적으로 협업하는 coworker agent를 평가하는 벤치마크 CoworkerBench가 공개됐습니다. 13개 전문 시나리오, 100개 태스크로 구성되며 파일시스템·이메일·캘린더·지식베이스·스프레드시트 등 5개 stateful 서비스 상태가 턴 사이에 외부에서 변합니다. 7개 최신 에이전트 시스템을 평가한 결과, 가장 강력한 모델이 75.8 weighted score를 기록했지만 엄격한 Task Success는 20.0%에 그쳐, 환경 변화에 적응하는 것이 핵심 난제임을 보여줍니다. 평가는 LLM-as-judge 없이 1537개 결정론적 Python 체커로 수행되며, 벤치마크와 평가 도구가 공개되었습니다.
- #agents
- #benchmark
- #multi-turn
- #stateful
- #coworker
Fanqing Meng