← Back to feed
Papers·2일 전

Microsoft, 복잡 GUI 상호작용 벤치마크 CUActSpot 공개 — Phi-Ground-Any-4B가 32B 미만 오픈소스 모델 중 최고 성능

Microsoft, 복잡 GUI 상호작용 벤치마크 CUActSpot 공개 — Phi-Ground-Any-4B가 32B 미만 오픈소스 모델 중 최고 성능

Microsoft 연구팀이 컴퓨터 사용 에이전트의 장애 원인을 분석한 결과, 복잡하고 빈도가 낮은 상호작용에서 실패가 집중되는 long-tail 패턴을 발견했습니다. 이를 해결하기 위해 GUI, 텍스트, 표, 캔버스, 자연 이미지 등 5개 모달리티와 다양한 액션을 포괄하는 벤치마크 CUActSpot을 제안하고, 렌더러 기반 데이터 합성 파이프라인으로 학습한 Phi-Ground-Any-4B가 32B 미만 오픈소스 모델 중 최고 성능을 달성했습니다. 단, 벤치마크가 합성 데이터에 의존해 실제 환경과의 괴리가 있을 수 있다는 점은 한계입니다.

  • #computer-use
  • #benchmark
  • #microsoft
  • #phi-ground
  • #gui
Microsoft

Comments

— 첫 댓글을 남겨보세요 —