Papers·1개월 전

Tsinghua, 모바일 GUI 에이전트 평가 위한 합성 벤치마크 SimuWoB 공개 — 120개 태스크 평균 성공률 27.92%

Tsinghua 팀이 모바일 GUI 에이전트의 현실적 평가를 위한 합성 벤치마크 SimuWoB를 제안했습니다. 120개의 다양한 태스크로 구성되며, 각 환경은 URL로 배포되어 재현 가능합니다. SOTA 에이전트들의 평균 성공률은 27.92%, 장기 태스크에서는 17.82%로, 복잡한 시나리오에서의 취약점을 드러냈습니다.

Tsinghua 대학 연구진이 모바일 GUI 에이전트의 현실적이고 포괄적인 평가를 위한 완전 합성 벤치마크 SimuWoB를 공개했습니다.

핵심 결론

태스크 — 120개 태스크로 구성, 다양한 유형과 난이도를 포함하며 장기 태스크도 다수 포함.
성능 — SOTA 에이전트 평균 성공률 27.92%, 장기 태스크에서는 17.82%로 급감.
일반화 — 합성 환경에서의 평가 결과가 실제 앱 샘플 태스크와 잘 일치함을 확인.

방법

합성 환경 — 고충실도 태스크와 환경을 자동 생성하는 프레임워크를 구축, 각 태스크에 유효한 보상을 자동 제공.
배포 — 각 환경은 백엔드 없는 웹페이지로 배포되어 URL로 접근 가능, 효율적이고 재현 가능한 평가 지원.
진단 — 주요 능력 차원별 진단 인사이트를 제공, 향후 모바일 GUI 에이전트 개발 방향 논의.

한계·조건

합성 vs 실제 — 합성 환경이 실제 앱과 완전히 동일하지는 않으나, 일반화 실험에서 유의미한 상관관계 확인.
코드 — 벤치마크는 공개 예정 (현재 abstract 및 figure 공개).

편집자 한 줄

기존 벤치마크가 오픈소스 앱이나 파일 조작에 치우친 점을 보완한 점이 인상적입니다. 장기 태스크에서 성능이 크게 떨어지는 건 현재 에이전트의 한계를 잘 보여주네요.

#mobile-gui-agent
#benchmark
#simulation
#tsinghua

Tsinghua University

원문 보기 →

Tsinghua, 모바일 GUI 에이전트 평가 위한 합성 벤치마크 SimuWoB 공개 — 120개 태스크 평균 성공률 27.92%

핵심 결론

방법

한계·조건

Comments