Papers·2일 전
HAKARI-Bench: 35개 벤치마크·43개 언어 통합한 경량 검색 평가 — MTEB 순위 Spearman 0.97 이상 재현

KAIST 팀이 35개 벤치마크·43개 언어를 통합한 경량 검색 평가 스위트 HAKARI-Bench를 공개했습니다. Nano-set으로 축소된 데이터로 MTEB retrieval v2, MMTEB v2, BEIR 전체 순위를 Spearman 0.97 이상으로 재현하며, BM25·dense·sparse·late interaction·reranker 다섯 계열을 동일 조건에서 비교할 수 있습니다. 단, 전체 평가를 대체하지는 않으며 빠른 모델 선택·회귀 탐지·Pareto frontier 확인 용도입니다.
KAIST 팀이 35개 벤치마크·43개 언어를 통합한 경량 검색 평가 스위트 HAKARI-Bench를 공개했습니다.
핵심 결론
- 재현성 — 55개 모델 평가 결과, MTEB retrieval v2·MMTEB v2·BEIR 전체 순위를 Spearman 0.97 이상으로 재현합니다.
- 범위 — BM25, dense, sparse, late interaction, reranker 다섯 계열을 동일 조건에서 비교할 수 있습니다.
방법
- Nano-set — 기존 대규모 벤치마크를 작은 데이터셋으로 압축해 35개 벤치마크·551개 태스크·43개 언어를 통합했습니다.
- 통합 포맷 — 모든 태스크가 동일한 포맷으로 제공되어 차원 축소·양자화·reranking 등 변형을 동일 조건에서 비교할 수 있습니다.
한계·조건
- 용도 — 전체 평가를 대체하지는 않으며, 빠른 모델 선택·회귀 탐지·quality-efficiency Pareto frontier 확인에 적합합니다.
- 라이선스 — 코드·데이터·리더보드는 MIT 라이선스로 공개되었습니다.
편집자 한 줄
경량 벤치마크라는 점에서 실용성이 높지만, Nano-set 특성상 특정 도메인에서의 미세한 차이를 놓칠 가능성은 염두에 둬야겠네요.
- #retrieval
- #benchmark
- #embedding
- #kaist
HAKARI-Bench