Papers·4일 전
WeaveBench — GUI·CLI·코드 오케스트레이션 평가, 최고 PassRate 41.2%

Microsoft 팀이 GUI, CLI, 코드 편집을 단일 트래젝토리 안에서 오케스트레이션해야 하는 114개 태스크 벤치마크 WeaveBench 를 공개했습니다. 기존 벤치마크는 인터페이스를 분리 평가했지만, 실제 업무는 이들을 혼합해 사용한다는 점에 착안해 Ubuntu 데스크톱 환경에서 8개 도메인 태스크를 구성했습니다. 최고 성능 모델-런타임 조합의 PassRate 가 41.2%에 그쳐 아직 여유가 큰 벤치마크이며, trajectory-aware judge 가 결과물만 평가할 때보다 에이전트 성능을 더 엄격하게 측정한다는 점이 특이합니다.
Microsoft 팀이 GUI·CLI·코드 조작을 모두 요구하는 장기 과제 벤치마크 WeaveBench 를 발표했습니다. 최고 성능 모델도 PassRate 41.2%에 그칩니다.
핵심 결론
- 태스크 — 114개 태스크, 8개 실제 업무 도메인 (문서, 데이터 분석, 개발 등), 각 태스크는 GUI+CLI+코드 조작을 혼합.
- 성능 — 최고 모델-런타임 조합의 PassRate 41.2%, 벤치마크가 아직 포화되지 않았습니다.
- 평가 — 결과물만 보는 outcome-only grading 은 성능을 과대평가하며, trajectory-aware judge 가 더 정확합니다.
방법
- 환경 — 실제 Ubuntu 데스크톱 위에서 CLI-agent 런타임에 최소한의 데스크톱 컨트롤 플러그인을 추가해 구동.
- 태스크 — 실제 사용자 요청에 기반하며, 산출물은 공개적으로 검증 가능한 파일·스크린샷·로그 등.
- 판정 — Trajectory-aware judge 가 산출물뿐 아니라 행동 궤적을 검사해 조작(가짜 스크린샷, 하드코딩 지표)을 탐지.
한계·조건
- 환경 — Ubuntu 데스크톱에 한정, Windows/macOS 등 다른 OS 로의 일반화는 검증되지 않았습니다.
- 규모 — 114개 태스크로 비교적 소규모, 도메인 커버리지가 제한적일 수 있습니다.
- 코드 — 논문에서 벤치마크와 judge 코드 공개 예정이라고 밝혔으나 현재는 abstract 만 열람 가능.
편집자 한 줄
멀티모달·멀티인터페이스 에이전트 평가의 기준점이 될 만한 벤치마크네요. 다만 태스크 수가 적어 일반화 가능성은 더 지켜봐야 합니다.
- #computer-use-agent
- #benchmark
- #microsoft
- #gui
- #cli
Microsoft