Papers·어제

KaLM-Reranker-V1: 쿼리와 문서를 분리한 효율적 리랭커 — BEIR SOTA, 0.27B~4B 규모

KaLM-Reranker-V1은 인코더-디코더 구조를 활용해 쿼리와 문서 인코딩을 분리하면서도 cross-attention으로 정확한 관련성을 유지하는 리랭커입니다. BEIR에서 SOTA를 달성했고, 0.27B Nano 모델도 7-12B 임베딩 모델과 경쟁력 있는 성능을 보입니다. 다만 MIRACL 다국어 벤치마크에서는 별도의 멀티링구얼 학습 없이도 좋은 성능을 내지만, 추가 학습 시 더 개선될 여지가 있습니다.

KaLM-Reranker-V1은 쿼리와 문서 인코딩을 분리해 효율성을 높이면서도 cross-attention으로 풍부한 관련성 모델링을 유지한 리랭커입니다.

핵심 결론

성능 — BEIR에서 SOTA, Qwen3-Reranker 시리즈와 동등한 수준.
효율 — 문서 인코딩을 분리해 배치 처리와 캐싱에 유리, late interaction보다 빠르면서도 cross-attention으로 정확도 유지.
MIRACL 다국어 벤치마크에서도 멀티링구얼 학습 없이 우수한 성능을 보였습니다.

방법

구조 — 인코더-디코더: 인코더가 문서를 Matryoshka embedding pooling으로 사전 인코딩, 디코더가 쿼리와 명령어를 처리.
분리 — 쿼리와 문서 인코딩이 분리되어 있어 문서 임베딩을 미리 계산해 캐싱 가능.
크로스-어텐션 — 디코더의 cross-attention이 쿼리 컨텍스트와 문서 표현 간 관련성을 모델링, late interaction보다 표현력이 풍부.

한계·조건

규모 — Nano(0.27B), Small(1B), Large(4B) 세 가지 크기로 제공.
데이터 — MIRACL 다국어 성능은 멀티링구얼 학습 없이도 좋지만, 추가 학습 시 더 개선될 여지가 있습니다.
코드 — Hugging Face에 모델 가중치와 추론 코드가 공개되어 있습니다.

편집자 한 줄

문서 인코딩 분리 아이디어는 실제 서비스에서 지연 시간과 비용을 크게 줄일 수 있는 실용적인 접근입니다.

#reranker
#retrieval
#kalm-embedding
#beir
#efficiency

KaLM-Embedding

원문 보기 →

KaLM-Reranker-V1: 쿼리와 문서를 분리한 효율적 리랭커 — BEIR SOTA, 0.27B~4B 규모

핵심 결론

방법

한계·조건

Comments