Papers·5일 전
PhoneHarness: 혼합 액션 벤치마크로 모바일 에이전트 평가 — GUI·CLI·툴 조합, pass rate 75.0%

PhoneHarness는 모바일 워크플로우를 GUI, CLI, 호스트 툴 액션을 혼합해 실행하고 검증하는 벤치마크입니다. 기존 GUI 컨트롤러 평가와 달리 작업 완료 여부를 observable side effect로 판단하며, PhoneHarness Bench에서 75.0% pass rate로 비-PhoneHarness 설정 대비 12.9%p 향상되었습니다. 단, 평가 분할이 제한적이고 실제 기기 다양성은 아직 반영되지 않았습니다.
PhoneHarness는 모바일 에이전트가 GUI·CLI·툴을 혼합해 실제 워크플로우를 완료할 수 있는지 측정하는 실행 하네스와 벤치마크를 제공합니다.
핵심 결론
- 벤치 — PhoneHarness Bench에서 75.0% pass rate, 비-PhoneHarness 최강 설정 대비 12.9%p 향상.
- 평가 방식 — 작업 완료 여부를 observable side effect로 판단, 단순 최종 답변 유사도보다 엄격합니다.
방법
- 혼합 액션 — GUI, CLI, 호스트 툴 액션을 deterministic routing과 bounded GUI delegation으로 조합.
- 감사 가능 — 실행 추적(auditable execution traces)을 남겨 재현성과 안전성 검증이 가능합니다.
한계·조건
- 평가 범위 — 주석이 달린 평가 분할만 공개, 전체 워크플로우 다양성은 제한적입니다.
- 기기 — 단일 기기 환경에서 테스트, 다양한 폼팩터나 OS 버전에서의 일반화는 추가 검증 필요.
편집자 한 줄
모바일 에이전트 평가가 GUI 조작 정확도에서 벗어나 실제 작업 완료로 옮겨가는 흐름을 보여주는 점이 인상적입니다.
- #mobile-agent
- #benchmark
- #gui
- #cli
- #phoneharness
Chenxin Li