Papers·1주 전
iOSWorld: 개인화된 모바일 에이전트 벤치마크 — 26개 앱, 133개 태스크, 최고 성능 52%

Carnegie Mellon University 팀이 개인화된 모바일 에이전트를 평가하기 위해 iOSWorld 벤치마크를 공개했습니다. 26개의 네이티브 iOS 앱에 걸친 지속적인 사용자 신원(거래, 메시지, 여행 기록, 소셜 관계, 금융 활동)을 기반으로 133개 태스크(단일 앱 27개, 멀티 앱 60개, 메모리·개인화 46개)를 포함합니다. 최고 설정(프론티어 모델 + vision+XML)에서 전체 성공률 52%, 멀티 앱 태스크에서는 37%에 그쳐 아직 큰 개선 여지가 있음을 보여줍니다.
Carnegie Mellon University 팀이 개인화된 모바일 에이전트 평가를 위한 iOSWorld 벤치마크를 공개했습니다.
핵심 결론
- 벤치마크 — 26개의 새로 구축된 iOS 앱에 걸친 지속적인 사용자 신원 기반의 133개 태스크.
- 성능 — 최고 설정(프론티어 모델 + vision+XML)에서 전체 52%, 멀티 앱 태스크에서 37%.
- 개선폭 — Privileged vision+XML 접근이 프론티어 모델 성능을 최대 26%p 향상시켰지만, 작은 모델은 오히려 도움을 받지 못했습니다.
방법
- 데이터 — 26개 앱(거래, 메시지, 여행, 소셜, 금융 등)이 연결된 데이터를 공유하며, 사용자 신원이 앱 간에 일관됨.
- 태스크 — 단일 앱(27개), 멀티 앱(60개), 메모리·개인화(46개) 세 가지 난이도로 구성.
- 평가 — 프론티어 및 오픈소스 컴퓨터-유즈 모델을 vision-only와 privileged vision+XML 두 설정에서 평가.
한계·조건
- 환경 — iOS 시뮬레이터 기반으로, 실제 디바이스의 지연·센서·네트워크 조건은 반영되지 않음.
- 재현성 — 모든 앱, 시드 데이터, 태스크, 루브릭, 평가 코드를 오픈소스로 공개.
- 범위 — 벤치마크는 26개 앱으로 제한되며, 실제 사용자 환경의 무한한 다양성을 완전히 포괄하지는 못함.
편집자 한 줄
멀티 앱 태스크에서의 낮은 성능(37%)은 개인화 에이전트의 현실적 어려움을 잘 보여주는 지표입니다. 특히 작은 모델이 XML 접근으로 이득을 보지 못한 점은 아키텍처 설계에 시사점이 있네요.
- #iosworld
- #mobile-agent
- #benchmark
- #personalization
- #carnegie-mellon
Carnegie Mellon University