Papers·6일 전
χ-Bench: 장기 헬스케어 워크플로우 벤치마크 — 최고 에이전트도 28% 해결률

actAVA AI 팀이 제안한 χ-Bench는 사전 승인, 이용 관리, 케어 관리 등 세 도메인에서 20개 헬스케어 앱(87개 MCP 도구)을 조작하며 1,290개 이상의 정책 문서를 따라야 하는 장기 워크플로우 벤치마크입니다. 30개 에이전트/모델 구성 중 최고 성능이 28.0% 해결률에 그쳤고, 엄격한 pass^3 기준으로는 20%를 넘지 못했으며, 단일 세션에서 모든 태스크를 실행하면 3.8%로 급락합니다. 이는 정책 밀도, 다중 역할 구성, 비가역적 상호작용이 필요한 엔터프라이즈 영역에서 유사한 격차가 존재할 가능성을 시사합니다.
- #benchmark
- #healthcare
- #agent
- #workflow
- #mcp
actAVA AI