← Back to feed
Papers·2일 전

Claw-Eval-Live: 실시간 워크플로우 에이전트 벤치마크 — 최고 모델도 66.7% 통과

Claw-Eval-Live: 실시간 워크플로우 에이전트 벤치마크 — 최고 모델도 66.7% 통과

Chenxin Li 팀이 워크플로우 에이전트 평가를 위한 라이브 벤치마크 Claw-Eval-Live를 공개했습니다. 수요 신호를 주기적으로 갱신하는 시그널 레이어와 재현 가능한 릴리스 스냅샷을 분리했으며, 105개 태스크에서 13개 모델을 평가한 결과 최고 모델도 66.7% 통과율에 그쳐 신뢰할 수 있는 워크플로우 자동화가 아직 멀었음을 보여줍니다. HR, 관리, 다중 시스템 워크플로우가 특히 어려웠고, 로컬 워크스페이스 수리는 상대적으로 쉬웠지만 여전히 포화되지 않았습니다.

Chenxin Li

Comments

— 첫 댓글을 남겨보세요 —