Papers·1주 전
UC Berkeley, 경제적 가치 기반 AI 평가 벤치마크 ALE 공개 — 평균 통과율 2.6%

UC Berkeley 팀이 250명 이상의 업계 전문가와 협력해 경제적 가치가 있는 실제 업무를 평가하는 벤치마크 Agents' Last Exam (ALE)을 공개했습니다. 13개 산업 클러스터, 1K+ 태스크로 구성되며, 현재 가장 어려운 난이도에서 평균 통과율이 2.6%에 그칩니다. 기존 벤치마크와 달리 지속적으로 태스크 풀이 확장되는 living benchmark 형태로 설계된 점이 특징입니다.
UC Berkeley가 경제적 가치가 있는 실제 업무를 평가하는 벤치마크 ALE를 공개했습니다. 현재 가장 어려운 태스크에서 평균 통과율 2.6%로, AI의 실질적 경제 기여도를 측정하려는 시도입니다.
핵심 결론
- 벤치마크 — ALE는 장기적이고 경제적 가치가 있는 실제 업무를 평가합니다. 13개 산업 클러스터, 55개 하위 분야, 1K+ 태스크로 구성됩니다.
- 결과 — 가장 어려운 난이도에서 평균 통과율 2.6%로, 아직 포화 상태와 거리가 멉니다.
방법
- 설계 — O*NET/SOC 2018 (미국 연방 직업 분류)을 기준으로 비물리적 산업을 선정했습니다.
- 협력 — 250명 이상의 업계 전문가가 태스크 설계에 참여했습니다.
- Living benchmark: 태스크 풀이 지속적으로 확장되며, 새로운 워크플로와 산업이 추가됩니다.
한계·조건
- 범위 — 비물리적 산업에 한정되며, 물리적 작업(제조, 건설 등)은 포함되지 않습니다.
- 재현성 — 코드와 데이터는 공개 예정이나, 현재는 논문과 Hugging Face 페이지에서 일부 정보만 확인 가능합니다.
편집자 한 줄
기존 벤치마크가 포화된 상황에서 실제 경제적 가치를 측정하려는 방향성은 의미 있어 보입니다. 다만 태스크 지속 확장의 운영 비용이 무시할 수준은 아닐 듯합니다.
- #benchmark
- #agents
- #uc-berkeley
- #evaluation
UC Berkeley