← Back to feed
Papers·5일 전

PhoneHarness: 혼합 액션 벤치마크로 모바일 에이전트 평가 — GUI·CLI·툴 조합, pass rate 75.0%

PhoneHarness: 혼합 액션 벤치마크로 모바일 에이전트 평가 — GUI·CLI·툴 조합, pass rate 75.0%

PhoneHarness는 모바일 워크플로우를 GUI, CLI, 호스트 툴 액션을 혼합해 실행하고 검증하는 벤치마크입니다. 기존 GUI 컨트롤러 평가와 달리 작업 완료 여부를 observable side effect로 판단하며, PhoneHarness Bench에서 75.0% pass rate로 비-PhoneHarness 설정 대비 12.9%p 향상되었습니다. 단, 평가 분할이 제한적이고 실제 기기 다양성은 아직 반영되지 않았습니다.

PhoneHarness는 모바일 에이전트가 GUI·CLI·툴을 혼합해 실제 워크플로우를 완료할 수 있는지 측정하는 실행 하네스와 벤치마크를 제공합니다.

핵심 결론

  • 벤치PhoneHarness Bench에서 75.0% pass rate, 비-PhoneHarness 최강 설정 대비 12.9%p 향상.
  • 평가 방식작업 완료 여부를 observable side effect로 판단, 단순 최종 답변 유사도보다 엄격합니다.

방법

  • 혼합 액션GUI, CLI, 호스트 툴 액션을 deterministic routing과 bounded GUI delegation으로 조합.
  • 감사 가능실행 추적(auditable execution traces)을 남겨 재현성과 안전성 검증이 가능합니다.

한계·조건

  • 평가 범위주석이 달린 평가 분할만 공개, 전체 워크플로우 다양성은 제한적입니다.
  • 기기단일 기기 환경에서 테스트, 다양한 폼팩터나 OS 버전에서의 일반화는 추가 검증 필요.

편집자 한 줄

모바일 에이전트 평가가 GUI 조작 정확도에서 벗어나 실제 작업 완료로 옮겨가는 흐름을 보여주는 점이 인상적입니다.

  • #mobile-agent
  • #benchmark
  • #gui
  • #cli
  • #phoneharness
Chenxin Li
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —