Ships·1개월 전

AI 평가 비용, 컴퓨팅 병목으로 부상 — HAL 벤치마크 4만 달러, 단일 GAIA 2,829달러

Hugging Face 커뮤니티 분석에 따르면 AI 평가 비용이 급격히 증가해 새로운 컴퓨팅 병목이 되고 있습니다. Holistic Agent Leaderboard(HAL)는 9개 모델·9개 벤치마크에 21,730회 에이전트 롤아웃을 실행하는 데 약 4만 달러를 썼고, 단일 GAIA 실행은 캐싱 전 2,829달러에 달합니다. Exgentic의 2만2천 달러 스윕에서는 동일 태스크에서 33배 비용 차이가 발견돼 스캐폴드 선택이 주요 비용 요인으로 지목됐습니다. 정적 LLM 벤치마크도 2022년 HELM 기준 30개 모델·42개 시나리오에 약 10만 달러가 들었습니다. 에이전트 벤치마크는 노이즈가 많고 스캐폴드에 민감해 압축이 어려워, 평가 비용이 지속적으로 상승할 전망입니다.

#hugging-face
#ai-evaluation
#benchmark-cost
#agent-benchmarks
#compute-bottleneck

Hugging Face

원문 보기 →

AI 평가 비용, 컴퓨팅 병목으로 부상 — HAL 벤치마크 4만 달러, 단일 GAIA 2,829달러

Comments