Papers·6일 전
ECC: 쿼리 클러스터링으로 LLM 능력 평가 정밀도 18%p 향상

위스콘신 대학교 연구팀이 LLM 평가를 위한 쿼리 클러스터링 알고리즘 ECC를 제안했습니다. 기존 의미론적 분류나 임베딩 기반 방법과 달리, 제한된 모델 비교 데이터로 사전 임베딩을 보정해 표면 의미와 실제 성능 간의 간극을 메웁니다. Bradley-Terry 모델로 클러스터별 능력 프로파일을 학습하고, 혼합 가중치로 다중 능력 요구를 처리합니다. 실험 결과, LLM 능력 순위 평가에서 사람 레이블 및 임베딩 기반 기준선 대비 각각 평균 17.64%p, 18.02%p 향상되었으며, 쿼리 라우팅 같은 하위 작업에도 효과적입니다. 다만, 사전 임베딩과 제한된 모델 비교 데이터에 의존하므로, 데이터 규모가 작을 때 일반화에 주의가 필요합니다.
- #llm-evaluation
- #query-clustering
- #bradley-terry
- #wisconsin
University of Wisconsin-Madison