Papers·2일 전
Benchmark Agent: LLM 벤치마크 구축 자동화 — 15개 태스크에서 사람 수준 품질

Benchmark Agent는 사용자 질의 분석부터 데이터 주석, 품질 관리까지 벤치마크 구축 전 과정을 자동화하는 에이전트 시스템입니다. 텍스트·멀티모달·도메인 추론 등 15개 벤치마크를 사람 개입 최소화로 생성했으며, 인간 평가와 LLM-as-a-judge에서 높은 품질을 확인했습니다. 다만 생성된 벤치마크의 지속적 업데이트 비용과 특정 도메인에서의 모델 성능 저하가 추가 분석 과제로 남았습니다.
벤치마크 구축은 노동집약적이고 재사용이 어려워 지속 가능성에 한계가 있습니다. Benchmark Agent는 이 과정을 완전 자동화한 시스템입니다.
핵심 결론
- 자동 생성 — 15개 벤치마크를 사람 개입 최소화로 구축, 인간 평가와 LLM-as-a-judge에서 높은 품질 달성.
- 적용 범위 — 텍스트 이해, 멀티모달 이해, 도메인 특화 추론 등 다양한 평가 시나리오를 포괄합니다.
방법
- 파이프라인 — 사용자 질의 분석 → 서브태스크 설계 → 데이터 주석 → 품질 관리를 자동화하는 에이전트 시스템.
- LLM 기반 에이전트가 각 단계를 독립적으로 수행하며, 필요 시 사람이 개입할 수 있는 구조입니다.
한계·조건
- 비용 — 지속적 벤치마크 업데이트에 필요한 compute 비용이 명시되지 않았습니다.
- 도메인 한계 — 특정 도메인 추론 태스크에서 모델 성능이 낮게 나와, 생성된 벤치마크의 난이도 편향 가능성이 있습니다.
- 코드 — 데모 페이지와 코드 저장소가 공개 예정이나 현재는 논문만 열람 가능합니다.
편집자 한 줄
벤치마크 구축 자동화는 유용한 방향이지만, 생성된 데이터의 다양성과 공정성 검증이 추가로 필요해 보입니다.
- #benchmark
- #llm
- #agent
- #automation
- #evaluation
Shiyun Xiong