Papers·1주 전
MLAIRE: 다국어 검색에서 언어 선호도를 평가하는 프로토콜 — 31개 retriever 분석 결과

Hugging Face 팀이 다국어 정보 검색에서 언어 선호도를 평가하는 프로토콜 MLAIRE를 제안했습니다. 기존 평가는 언어와 무관한 의미적 관련성만 측정했지만, 실제 사용자는 질의어와 동일한 언어의 결과를 선호합니다. MLAIRE는 병렬 문서 풀을 구축해 의미 검색 정확도와 질의어 언어 선호도를 분리 측정하며, Language Preference Rate(LPR)와 Lang-nDCG 같은 지표를 도입했습니다. 31개 retriever(dense, sparse, late-interaction) 평가 결과, 의미적으로 강한 retriever가 비질의어 언어로 올바른 내용을 반환하는 등 표준 지표로는 포착되지 않는 행동 차이가 드러났습니다.
- #multilingual
- #information-retrieval
- #evaluation
- #huggingface
Youngjoon Jang