Papers·2일 전
Microsoft, 복잡 GUI 상호작용 벤치마크 CUActSpot 공개 — Phi-Ground-Any-4B가 32B 미만 오픈소스 모델 중 최고 성능
Microsoft 연구팀이 컴퓨터 사용 에이전트의 장애 원인을 분석한 결과, 복잡하고 빈도가 낮은 상호작용에서 실패가 집중되는 long-tail 패턴을 발견했습니다. 이를 해결하기 위해 GUI, 텍스트, 표, 캔버스, 자연 이미지 등 5개 모달리티와 다양한 액션을 포괄하는 벤치마크 CUActSpot을 제안하고, 렌더러 기반 데이터 합성 파이프라인으로 학습한 Phi-Ground-Any-4B가 32B 미만 오픈소스 모델 중 최고 성능을 달성했습니다. 단, 벤치마크가 합성 데이터에 의존해 실제 환경과의 괴리가 있을 수 있다는 점은 한계입니다.
- #computer-use
- #benchmark
- #microsoft
- #phi-ground
- #gui
Microsoft