Papers·1개월 전

MyPCBench: 개인화된 컴퓨터 사용 에이전트 평가 벤치마크 — 최고 모델 Claude Opus 4.6도 55.4%

CMU 팀이 개인 비서형 컴퓨터 사용 에이전트를 평가하는 벤치마크 MyPCBench를 공개했습니다. 17개의 시뮬레이션 웹앱과 Linux 데스크톱 환경에서 184개 태스크를 정의했고, Claude Opus 4.6이 55.4%로 유일하게 50%를 넘겼습니다. 태스크는 The Office의 Michael Scott 페르소나에 맞춰 개인화되었으며, 실패는 여러 앱을 넘나드는 장기 궤적에서 집중됩니다. 환경과 태스크셋은 공개되었습니다.

CMU 팀이 개인화된 컴퓨터 사용 에이전트 평가를 위한 벤치마크 MyPCBench를 공개했습니다.

핵심 결론

최고 성능 — Claude Opus 4.6이 55.4%로 유일하게 50%를 넘겼습니다.
태스크 — 184개 태스크, 각각 OpenClaw 커뮤니티의 실제 요청에서 영감을 받았습니다.
환경 — 17개 시뮬레이션 웹앱과 전체 데스크톱 스택, Michael Scott 페르소나로 시드됨.

방법

개인화 — 기존 벤치마크는 비개인 환경에서 평가했지만, MyPCBench는 로그인 계정, 개인 데이터, 히스토리를 포함한 환경을 제공합니다.
도구 — 모든 모델에 uniform computer+bash tool surface를 제공하여 공정 비교.
6개 모델(closed 및 open-weight)을 벤치마킹했습니다.

한계·조건

실패 패턴 — 여러 앱을 넘나드는 장기 궤적에서 개인화 스트레스가 가장 큽니다.
공개 — 환경, 태스크셋, 에이전트 하네스는 https://mypcbench.com 에서 공개.

편집자 한 줄

개인화된 환경에서의 에이전트 평가는 실제 배포 격차를 좁히는 중요한 방향입니다.

#computer-use-agent
#benchmark
#personalization
#cmu

Carnegie Mellon University

원문 보기 →

MyPCBench: 개인화된 컴퓨터 사용 에이전트 평가 벤치마크 — 최고 모델 Claude Opus 4.6도 55.4%

핵심 결론

방법

한계·조건

Comments