Papers·어제
ByteDance Seed, 전문 GUI 에이전트 벤치마크 Workflow-GYM — 장기 태스크 성공률 30% 미만

ByteDance Seed 팀이 전문 소프트웨어 환경에서 장기 GUI 워크플로우를 평가하는 벤치마크 Workflow-GYM을 공개했습니다. 최신 모델 중 최고 성능도 성공률 30%를 약간 상회하는 데 그쳐, 현재 GUI 에이전트가 전문 도메인의 장기 태스크에서 워크플로우 일관성을 유지하지 못하고 단계 누락·오류 전파·목표 이탈을 보인다는 점을 지적합니다.
ByteDance Seed 팀이 전문 소프트웨어 환경에서 장기 GUI 워크플로우를 평가하는 벤치마크 Workflow-GYM을 공개했습니다.
핵심 결론
- 성공률 — 최고 성능 모델도 성공률 30%를 약간 상회 — 전문 장기 GUI 태스크는 여전히 매우 어려운 수준입니다.
- 주요 실패 — 워크플로우 단계 누락, 오류 전파, 목표 이탈, 전문 소프트웨어 환경 이해 부족이 주된 원인으로 분석됩니다.
방법
- 벤치마크 구성 — 전문 도메인(금융, 디자인, 엔지니어링 등)의 실제 업무 프로세스를 기반으로 한 장기 GUI 태스크로 구성됩니다.
- 평가 방식 — 에이전트가 사용자 지시를 따라 전문 소프트웨어를 종단간 자율 조작하는 능력을 측정합니다.
한계·조건
- 범위 — 전문 소프트웨어 환경에 특화되어 있어 일반 GUI 태스크와의 비교는 제한적입니다.
- 재현성 — 벤치마크는 Hugging Face에 공개되어 있으나, 평가에 필요한 전문 소프트웨어 라이선스가 필요할 수 있습니다.
편집자 한 줄
현재 GUI 에이전트 연구가 단순 태스크에 집중된 점을 감안하면, 전문 도메인 장기 워크플로우를 체계적으로 평가한 점이 의미 있습니다.
- #gui-agent
- #benchmark
- #long-horizon
- #bytedance
ByteDance Seed