Papers·2일 전

HAKARI-Bench: 35개 벤치마크·43개 언어 통합한 경량 검색 평가 — MTEB 순위 Spearman 0.97 이상 재현

KAIST 팀이 35개 벤치마크·43개 언어를 통합한 경량 검색 평가 스위트 HAKARI-Bench를 공개했습니다. Nano-set으로 축소된 데이터로 MTEB retrieval v2, MMTEB v2, BEIR 전체 순위를 Spearman 0.97 이상으로 재현하며, BM25·dense·sparse·late interaction·reranker 다섯 계열을 동일 조건에서 비교할 수 있습니다. 단, 전체 평가를 대체하지는 않으며 빠른 모델 선택·회귀 탐지·Pareto frontier 확인 용도입니다.

KAIST 팀이 35개 벤치마크·43개 언어를 통합한 경량 검색 평가 스위트 HAKARI-Bench를 공개했습니다.

핵심 결론

재현성 — 55개 모델 평가 결과, MTEB retrieval v2·MMTEB v2·BEIR 전체 순위를 Spearman 0.97 이상으로 재현합니다.
범위 — BM25, dense, sparse, late interaction, reranker 다섯 계열을 동일 조건에서 비교할 수 있습니다.

방법

Nano-set — 기존 대규모 벤치마크를 작은 데이터셋으로 압축해 35개 벤치마크·551개 태스크·43개 언어를 통합했습니다.
통합 포맷 — 모든 태스크가 동일한 포맷으로 제공되어 차원 축소·양자화·reranking 등 변형을 동일 조건에서 비교할 수 있습니다.

한계·조건

용도 — 전체 평가를 대체하지는 않으며, 빠른 모델 선택·회귀 탐지·quality-efficiency Pareto frontier 확인에 적합합니다.
라이선스 — 코드·데이터·리더보드는 MIT 라이선스로 공개되었습니다.

편집자 한 줄

경량 벤치마크라는 점에서 실용성이 높지만, Nano-set 특성상 특정 도메인에서의 미세한 차이를 놓칠 가능성은 염두에 둬야겠네요.

#retrieval
#benchmark
#embedding
#kaist

HAKARI-Bench

원문 보기 →

HAKARI-Bench: 35개 벤치마크·43개 언어 통합한 경량 검색 평가 — MTEB 순위 Spearman 0.97 이상 재현

핵심 결론

방법

한계·조건

Comments