← Back to feed
Papers·2일 전

Benchmark Agent: LLM 벤치마크 구축 자동화 — 15개 태스크에서 사람 수준 품질

Benchmark Agent: LLM 벤치마크 구축 자동화 — 15개 태스크에서 사람 수준 품질

Benchmark Agent는 사용자 질의 분석부터 데이터 주석, 품질 관리까지 벤치마크 구축 전 과정을 자동화하는 에이전트 시스템입니다. 텍스트·멀티모달·도메인 추론 등 15개 벤치마크를 사람 개입 최소화로 생성했으며, 인간 평가와 LLM-as-a-judge에서 높은 품질을 확인했습니다. 다만 생성된 벤치마크의 지속적 업데이트 비용과 특정 도메인에서의 모델 성능 저하가 추가 분석 과제로 남았습니다.

벤치마크 구축은 노동집약적이고 재사용이 어려워 지속 가능성에 한계가 있습니다. Benchmark Agent는 이 과정을 완전 자동화한 시스템입니다.

핵심 결론

  • 자동 생성15개 벤치마크를 사람 개입 최소화로 구축, 인간 평가와 LLM-as-a-judge에서 높은 품질 달성.
  • 적용 범위텍스트 이해, 멀티모달 이해, 도메인 특화 추론 등 다양한 평가 시나리오를 포괄합니다.

방법

  • 파이프라인사용자 질의 분석 → 서브태스크 설계 → 데이터 주석 → 품질 관리를 자동화하는 에이전트 시스템.
  • LLM 기반 에이전트가 각 단계를 독립적으로 수행하며, 필요 시 사람이 개입할 수 있는 구조입니다.

한계·조건

  • 비용지속적 벤치마크 업데이트에 필요한 compute 비용이 명시되지 않았습니다.
  • 도메인 한계특정 도메인 추론 태스크에서 모델 성능이 낮게 나와, 생성된 벤치마크의 난이도 편향 가능성이 있습니다.
  • 코드데모 페이지와 코드 저장소가 공개 예정이나 현재는 논문만 열람 가능합니다.

편집자 한 줄

벤치마크 구축 자동화는 유용한 방향이지만, 생성된 데이터의 다양성과 공정성 검증이 추가로 필요해 보입니다.

  • #benchmark
  • #llm
  • #agent
  • #automation
  • #evaluation
Shiyun Xiong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —