Papers·1개월 전

Claw-Anything: 항시 켜진 개인 비서 에이전트 벤치마크 — GPT-5.5 pass@1 34.5%

Yusong Lin 팀이 항시 켜진 개인 비서 환경을 평가하는 벤치마크 Claw-Anything을 공개했습니다. 기존 벤치마크와 달리 장기 활동 이력, 상호 의존적인 백엔드 서비스, GUI/CLI 통합 등 세 가지 차원에서 에이전트 컨텍스트를 확장했으며, 수개월치 사용자 활동을 시뮬레이션해 현실적인 노이즈와 충돌 신호를 포함시켰습니다. GPT-5.5가 pass@1 34.5%에 그쳐 현재 에이전트 역량과 항시 켜진 개인 비서 요구 사이에 큰 격차가 있음을 보여줍니다. 2,000개 훈련 환경을 생성하는 자동 데이터 생성 파이프라인도 함께 공개했으며, 이를 통해 베이스 모델 성능을 23.7% 개선할 수 있었습니다.

#agents
#benchmark
#personal-assistant
#gpt-5.5
#long-context

Yusong Lin

원문 보기 →

Claw-Anything: 항시 켜진 개인 비서 에이전트 벤치마크 — GPT-5.5 pass@1 34.5%

Comments