Papers·2일 전
OpenComputer: 검증 가능한 소프트웨어 세계로 컴퓨터 사용 에이전트 평가 — 33개 앱, 1000개 태스크

OpenComputer는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 세계를 구축하는 프레임워크로, 33개 데스크톱 애플리케이션과 1000개의 정교한 태스크를 포함합니다. 핵심은 앱별 상태 검증기(verifier)를 하드코딩하여 LLM-as-judge 평가보다 인간 판단과 더 높은 일치를 보인 점입니다. 실험 결과, 최첨단 에이전트도 종단간 완료에 어려움을 겪었으며, 오픈소스 모델은 OSWorld-Verified 점수 대비 큰 성능 하락을 보여 격차가 여전함을 드러냈습니다.
- #computer-use-agents
- #evaluation
- #verification
- #opencomputer
- #desktop-automation
Jinbiao Wei