Papers·1개월 전

EvalAgent: 자동화된 에이전트 평가 파이프라인 — Eval@1 17.5%→65%

Amazon 연구진이 코딩 어시스턴트를 활용해 멀티스텝 에이전트 평가를 자동화하는 EvalAgent를 공개했습니다. 단순히 프롬프트만으로는 실행 성공률 30%에 그치지만, EvalAgent는 평가 도메인 지식을 스킬(절차적 명령, 재사용 코드, API 문서)로 인코딩해 trace 기반 파이프라인을 구성합니다. AgentEvalBench(20개 에이전트) 실험에서 Eval@1(첫 실행 시 의미 있는 결과)을 17.5%에서 65%로 끌어올렸고, 인간 전문가 선호도 79.5%를 기록했습니다. 단, 평가 스킬을 제거하면 Eval@1이 30%로 급감해, 복잡한 평가에는 도메인 지식이 결정적임을 보여줍니다.

#agent-evaluation
#automation
#amazon
#coding-assistant

Amazon

원문 보기 →

EvalAgent: 자동화된 에이전트 평가 파이프라인 — Eval@1 17.5%→65%

Comments