Papers·2주 전
PhoneWorld: 실제 GUI 궤적으로 제어 가능한 폰 사용 환경을 대량 생성하는 파이프라인

PhoneWorld는 실제 모바일 GUI 궤적과 스크린샷을 활용해 제어 가능한 폰 사용 환경, 실행 가능한 태스크, 자동 검증기, 학습 롤아웃을 생성하는 재사용 가능한 파이프라인입니다. 34개 앱, 16개 도메인을 커버하며, 기존 AndroidWorld 기반 베이스라인에 PhoneWorld 데이터를 1만 스텝 보강하면 HYMobileBench 17.7점, AndroidControl 6.0점, AndroidWorld 14.7점, PhoneWorld 52.5점이 동시에 향상됩니다. 다만 현재 인스턴스는 read-only 앱 콘텐츠와 mutable state로 mock Android 앱을 구성하므로, 실제 앱과의 동적 차이는 한계로 남습니다.
PhoneWorld는 실제 GUI 궤적에서 제어 가능한 폰 사용 환경을 대량으로 생성하는 파이프라인을 제시합니다.
핵심 결론
- 태스크 — PhoneWorld는 34개 앱, 16개 도메인에 걸쳐 실행 가능한 태스크와 자동 검증기를 제공합니다.
- 개선폭 — AndroidWorld 기반 베이스라인에 1만 스텝 PhoneWorld 데이터를 추가하면 HYMobileBench 17.7점, AndroidControl 6.0점, AndroidWorld 14.7점, PhoneWorld 52.5점 향상.
방법
- 파이프라인 — 실제 GUI 궤적에서 화면 연결, 상태 변경, 검증 가능한 사용자 목표를 복원해 mock Android 앱을 구축.
- 확장성 — 앱 범위 확장이 PhoneWorld 성능에 더 큰 이득을 주며, 데이터 양 증가도 성능을 향상시킵니다.
한계·조건
- 환경 — mock 앱은 read-only 콘텐츠와 mutable state 기반이라 실제 앱의 동적 업데이트나 네트워크 의존성을 반영하지 못합니다.
- 코드 — Hugging Face papers 페이지에 abstract와 figure만 공개, 전체 코드 및 데이터는 추후 공개 예정.
편집자 한 줄
한 번에 하나의 벤치마크를 수작업으로 만드는 접근에서 벗어나, 환경 자체를 대량 생산하는 방향으로 전환한 점이 인상적입니다.
- #phone-use-agent
- #mobile-benchmark
- #gui-trajectory
- #pipeline
Zhengyang Tang