Papers·3개월 전

AcademiClaw: 대학생 실제 학업 과제 80개로 평가한 에이전트 능력 — 최고 모델도 55% 통과율

OpenClaw 생태계에 학술 수준 과제를 평가하는 벤치마크 AcademiClaw가 공개되었습니다. 대학생들의 실제 학업 워크플로(숙제, 연구 프로젝트, 대회, 개인 프로젝트)에서 수집한 80개의 복잡·장기 과제로 구성되며, 25개 이상 전문 분야(올림피아드 수학·언어학, GPU 집약적 강화학습, 풀스택 디버깅 등)를 포함합니다. 6개 최신 모델 실험에서 최고 성능이 55% 통과율에 그쳤고, 과제 도메인별 능력 경계, 모델 간 전략 차이, 토큰 소비와 출력 품질 간 괴리 등 세밀한 진단 신호를 제공합니다. 데이터와 코드는 공개되었습니다.

#benchmark
#agents
#openclaw
#academic-tasks
#evaluation

Junjie Yu

원문 보기 →

AcademiClaw: 대학생 실제 학업 과제 80개로 평가한 에이전트 능력 — 최고 모델도 55% 통과율

Comments