← Back to feed
Papers·6일 전

WindowsWorld: 크로스-앱 워크플로우 벤치마크 — GUI 에이전트 성공률 21% 미만

WindowsWorld: 크로스-앱 워크플로우 벤치마크 — GUI 에이전트 성공률 21% 미만

HITsz-TMG 팀이 다중 애플리케이션 협업이 필요한 전문 작업을 평가하는 벤치마크 WindowsWorld를 공개했습니다. 16개 직업군 기반 181개 태스크(평균 5.0 서브골, 78%가 다중 앱)에서 최신 GUI 에이전트들은 21% 미만의 성공률을 기록했으며, 3개 이상 앱이 필요한 조건부 추론에서는 초기 단계에서 실패했습니다. 단일 앱 태스크 대비 큰 격차를 보여주며, 인간의 step 한계를 훨씬 초과하는 비효율성도 지적됩니다.

Jinchao Li

Comments

— 첫 댓글을 남겨보세요 —