Papers·1개월 전

PhoneHarness: 혼합 액션 벤치마크로 모바일 에이전트 평가 — GUI·CLI·툴 조합, pass rate 75.0%

PhoneHarness는 모바일 워크플로우를 GUI, CLI, 호스트 툴 액션을 혼합해 실행하고 검증하는 벤치마크입니다. 기존 GUI 컨트롤러 평가와 달리 작업 완료 여부를 observable side effect로 판단하며, PhoneHarness Bench에서 75.0% pass rate로 비-PhoneHarness 설정 대비 12.9%p 향상되었습니다. 단, 평가 분할이 제한적이고 실제 기기 다양성은 아직 반영되지 않았습니다.

PhoneHarness는 모바일 에이전트가 GUI·CLI·툴을 혼합해 실제 워크플로우를 완료할 수 있는지 측정하는 실행 하네스와 벤치마크를 제공합니다.

핵심 결론

벤치 — PhoneHarness Bench에서 75.0% pass rate, 비-PhoneHarness 최강 설정 대비 12.9%p 향상.
평가 방식 — 작업 완료 여부를 observable side effect로 판단, 단순 최종 답변 유사도보다 엄격합니다.

방법

혼합 액션 — GUI, CLI, 호스트 툴 액션을 deterministic routing과 bounded GUI delegation으로 조합.
감사 가능 — 실행 추적(auditable execution traces)을 남겨 재현성과 안전성 검증이 가능합니다.

한계·조건

평가 범위 — 주석이 달린 평가 분할만 공개, 전체 워크플로우 다양성은 제한적입니다.
기기 — 단일 기기 환경에서 테스트, 다양한 폼팩터나 OS 버전에서의 일반화는 추가 검증 필요.

편집자 한 줄

모바일 에이전트 평가가 GUI 조작 정확도에서 벗어나 실제 작업 완료로 옮겨가는 흐름을 보여주는 점이 인상적입니다.

#mobile-agent
#benchmark
#gui
#cli
#phoneharness

Chenxin Li

원문 보기 →

PhoneHarness: 혼합 액션 벤치마크로 모바일 에이전트 평가 — GUI·CLI·툴 조합, pass rate 75.0%

핵심 결론

방법

한계·조건

Comments