Papers·5일 전
Counsel: 에이전트 작업 평가를 위한 첫 공개 메타 평가 데이터셋

Atla가 에이전트 시스템의 궤적(trajectory) 평가를 위한 첫 공개 메타 평가 데이터셋 Counsel을 공개했습니다. tau-bench(고객 지원)와 DA-Code(코딩) 두 벤치마크에서 오픈웨이트 LLM-as-a-judge(LLMJ)의 프로세스 수준 비판을 수집하고, 인간이 각 오류 플래그를 '정확', '위치만 정확', '잘못 플래그'로 레이블링해 Krippendorff's alpha 0.78의 신뢰도를 확보했습니다. 가장 강력한 judge 모델은 위치 일치 88%, 추론 일치 65%를 기록했으며, 데이터셋은 퍼미시브 라이선스로 공개되어 LLMJ의 정렬 개선에 활용될 수 있습니다.
에이전트 시스템의 다단계 작업 평가를 위해 인간 주석 비용이 큰 문제를 해결하고자, Atla가 LLMJ 비판의 신뢰성을 측정할 수 있는 첫 공개 메타 평가 데이터셋 Counsel을 내놓았습니다.
핵심 결론
- 데이터셋 — tau-bench와 DA-Code에서 오픈웨이트 LLMJ의 프로세스 수준 비판과 인간 메타 평가를 포함한 첫 공개 데이터셋.
- 인간 신뢰도 — 인간 주석자 간 Krippendorff's alpha 0.78로 높은 일치도를 보였습니다.
- 최고 성능 — 가장 강력한 judge 모델이 위치 일치 88%, 추론 일치 65% 달성.
방법
- 데이터 구성 — LLMJ가 궤적 내 각 오류를 플래그하고, 인간이 'spot on', 'correct location but poor reasoning', 'should not have flagged'로 레이블링.
- 모델 비교 — 더 강력한 judge 모델과 더 많은 추론 노력이 인간 일치도를 개선하는 경향을 확인.
- 데이터셋은 오픈웨이트 모델로 생성되었으며, 퍼미시브 라이선스로 공개되어 커뮤니티에서 LLMJ 정렬 연구에 활용 가능합니다.
한계·조건
- 벤치마크 범위 — tau-bench와 DA-Code 두 가지 에이전트 벤치마크에 한정되어 일반화에는 추가 검증이 필요.
- 비용 — 인간 주석 비용이 여전히 필요하지만, 데이터셋 자체는 공개되어 재사용 가능.
편집자 한 줄
LLMJ의 신뢰성을 체계적으로 평가할 수 있는 기준점이 마련된 점이 의미 있습니다. 특히 오픈웨이트 모델 기반이라 접근성이 높네요.
- #agentic-systems
- #evaluation
- #llm-as-a-judge
- #atla
- #dataset
Atla