← Back to feed
Papers·5일 전

MM-ToolBench: 실제 업무 흐름에서 멀티모달·툴·컴퓨터 사용을 통합 평가 — Claude Opus 4.6도 32% 성공률

MM-ToolBench: 실제 업무 흐름에서 멀티모달·툴·컴퓨터 사용을 통합 평가 — Claude Opus 4.6도 32% 성공률

기존 벤치마크가 도구 사용, 컴퓨터 사용, 멀티모달 추론을 따로 평가하는 데 반해, MM-ToolBench는 고객 서비스와 지능형 창작 두 가지 태스크 패밀리, 27개 MCP 서버·324개 도구로 구성된 100개 실행형 태스크를 통해 종단 간 옴니모달 도구 사용을 평가합니다. 핵심 설계는 폐루프 멀티모달 검증(closed-loop multimodal verification)으로, 에이전트가 도구를 실행하고 결과물을 확인·수정해야 성공으로 인정됩니다. Claude Opus 4.6이 32.0% 성공률에 그친 반면 인간 기준은 94.0%로, 아직 큰 격차가 있습니다. 코드와 데이터는 공개되었습니다.

  • #tool-use
  • #multimodal
  • #benchmark
  • #mcp
  • #agent
Pi3AI

Comments

— 첫 댓글을 남겨보세요 —