Papers·1개월 전

WeaveBench — GUI·CLI·코드 오케스트레이션 평가, 최고 PassRate 41.2%

Microsoft 팀이 GUI, CLI, 코드 편집을 단일 트래젝토리 안에서 오케스트레이션해야 하는 114개 태스크 벤치마크 WeaveBench 를 공개했습니다. 기존 벤치마크는 인터페이스를 분리 평가했지만, 실제 업무는 이들을 혼합해 사용한다는 점에 착안해 Ubuntu 데스크톱 환경에서 8개 도메인 태스크를 구성했습니다. 최고 성능 모델-런타임 조합의 PassRate 가 41.2%에 그쳐 아직 여유가 큰 벤치마크이며, trajectory-aware judge 가 결과물만 평가할 때보다 에이전트 성능을 더 엄격하게 측정한다는 점이 특이합니다.

Microsoft 팀이 GUI·CLI·코드 조작을 모두 요구하는 장기 과제 벤치마크 WeaveBench 를 발표했습니다. 최고 성능 모델도 PassRate 41.2%에 그칩니다.

핵심 결론

태스크 — 114개 태스크, 8개 실제 업무 도메인 (문서, 데이터 분석, 개발 등), 각 태스크는 GUI+CLI+코드 조작을 혼합.
성능 — 최고 모델-런타임 조합의 PassRate 41.2%, 벤치마크가 아직 포화되지 않았습니다.
평가 — 결과물만 보는 outcome-only grading 은 성능을 과대평가하며, trajectory-aware judge 가 더 정확합니다.

방법

환경 — 실제 Ubuntu 데스크톱 위에서 CLI-agent 런타임에 최소한의 데스크톱 컨트롤 플러그인을 추가해 구동.
태스크 — 실제 사용자 요청에 기반하며, 산출물은 공개적으로 검증 가능한 파일·스크린샷·로그 등.
판정 — Trajectory-aware judge 가 산출물뿐 아니라 행동 궤적을 검사해 조작(가짜 스크린샷, 하드코딩 지표)을 탐지.

한계·조건

환경 — Ubuntu 데스크톱에 한정, Windows/macOS 등 다른 OS 로의 일반화는 검증되지 않았습니다.
규모 — 114개 태스크로 비교적 소규모, 도메인 커버리지가 제한적일 수 있습니다.
코드 — 논문에서 벤치마크와 judge 코드 공개 예정이라고 밝혔으나 현재는 abstract 만 열람 가능.

편집자 한 줄

멀티모달·멀티인터페이스 에이전트 평가의 기준점이 될 만한 벤치마크네요. 다만 태스크 수가 적어 일반화 가능성은 더 지켜봐야 합니다.

#computer-use-agent
#benchmark
#microsoft
#gui
#cli

Microsoft

원문 보기 →

WeaveBench — GUI·CLI·코드 오케스트레이션 평가, 최고 PassRate 41.2%

핵심 결론

방법

한계·조건

Comments