Papers·1개월 전

ECI_sem: 학습 없이 dense retrieval 의 hard-negative 를 고르는 방법 — MS MARCO 에서 BEIR 전이 최고

Aarush Sinha 팀이 dense retrieval 의 hard-negative source 를 fine-tuning 없이 선택하는 ECI_sem 을 제안했습니다. frozen target-encoder 임베딩으로 consistency, locality, residuality, diversity 를 측정해 후보를 순위화합니다. MS MARCO 에서 LLM negative 를 최상위로 뽑았고, BEIR 전이 성능이 DistilBERT, E5-base, Contriever 에서 가장 강한 aggregate 를 기록했습니다. 단, target encoder family 가 같아야 정렬이 유지되며, downstream 평가가 최종 테스트라는 점에 주의할 필요가 있습니다.

Dense retrieval 의 hard-negative source 선택은 보통 fine-tuning 후에야 결정되는데, ECI_sem 은 학습 없이 frozen target-encoder 로 후보를 순위화합니다.

핵심 결론

태스크 — MS MARCO negative source 에서 ECI_sem 이 LLM negative 를 비혼합 소스 중 최상위, Dense+LLM 을 혼합 소스 중 최상위로 선정.
전이 — BEIR 전이 성능이 DistilBERT, E5-base, Contriever 에서 가장 강한 aggregate 를 기록.

방법

핵심 아이디어 — frozen target-encoder 로 query, positive, candidate negative 의 residual 정보 행렬을 구성. target consistency, semantic locality, lexical residuality, log-determinant diversity 네 축으로 가중합.
training-free 이지만 label-free 는 아닙니다 — query, labeled positive, explicit candidate negative 가 필요합니다.

한계·조건

encoder 의존 — 정렬이 유지되려면 target encoder family 가 같아야 합니다. 다른 encoder 로 바꾸면 순위가 달라집니다.
평가 — downstream 평가가 최종 테스트이며, ablation 에서 sample-size, temperature, tokenizer, IDF-corpus perturbation 에 안정적임을 확인.
코드 — 논문 내 실험은 공개되지 않았으며, 이론적 연결은 loss reduction 과의 local linearized link 로 제시.

편집자 한 줄

학습 없이 hard-negative source 를 고른다는 점이 실용적이지만, encoder family 제약이 실제 배포에서 얼마나 걸림돌이 될지 지켜볼 만합니다.

#dense-retrieval
#hard-negative-mining
#ms-marco
#beir
#eci

Aarush Sinha

원문 보기 →

ECI_sem: 학습 없이 dense retrieval 의 hard-negative 를 고르는 방법 — MS MARCO 에서 BEIR 전이 최고

핵심 결론

방법

한계·조건

Comments