Papers·5일 전
MM-ToolBench: 실제 업무 흐름에서 멀티모달·툴·컴퓨터 사용을 통합 평가 — Claude Opus 4.6도 32% 성공률

기존 벤치마크가 도구 사용, 컴퓨터 사용, 멀티모달 추론을 따로 평가하는 데 반해, MM-ToolBench는 고객 서비스와 지능형 창작 두 가지 태스크 패밀리, 27개 MCP 서버·324개 도구로 구성된 100개 실행형 태스크를 통해 종단 간 옴니모달 도구 사용을 평가합니다. 핵심 설계는 폐루프 멀티모달 검증(closed-loop multimodal verification)으로, 에이전트가 도구를 실행하고 결과물을 확인·수정해야 성공으로 인정됩니다. Claude Opus 4.6이 32.0% 성공률에 그친 반면 인간 기준은 94.0%로, 아직 큰 격차가 있습니다. 코드와 데이터는 공개되었습니다.
- #tool-use
- #multimodal
- #benchmark
- #mcp
- #agent
Pi3AI