Papers·2일 전
AutoGUI-v2: GUI 에이전트의 기능 이해와 상태 예측을 평가하는 2,753개 태스크 벤치마크

Hongxin Li 팀이 GUI 에이전트의 심층 기능 이해와 상호작용 결과 예측 능력을 평가하는 벤치마크 AutoGUI-v2를 공개했습니다. VLM-인간 협업 파이프라인으로 6개 OS에서 2,753개 태스크를 구축했으며, Qwen3-VL 같은 오픈소스 모델은 기능적 grounding에 강하지만 Gemini-2.5-Pro-Thinking 같은 상용 모델은 기능 캡셔닝에서 우위를 보입니다. 모든 모델이 드문 동작의 복잡한 상호작용 논리에서 어려움을 겪어, 깊은 기능 이해가 여전히 난제임을 보여줍니다.
- #gui-agent
- #benchmark
- #vlm
- #autogui
Hongxin Li