Papers·어제
KaLM-Reranker-V1: 쿼리와 문서를 분리한 효율적 리랭커 — BEIR SOTA, 0.27B~4B 규모

KaLM-Reranker-V1은 인코더-디코더 구조를 활용해 쿼리와 문서 인코딩을 분리하면서도 cross-attention으로 정확한 관련성을 유지하는 리랭커입니다. BEIR에서 SOTA를 달성했고, 0.27B Nano 모델도 7-12B 임베딩 모델과 경쟁력 있는 성능을 보입니다. 다만 MIRACL 다국어 벤치마크에서는 별도의 멀티링구얼 학습 없이도 좋은 성능을 내지만, 추가 학습 시 더 개선될 여지가 있습니다.
KaLM-Reranker-V1은 쿼리와 문서 인코딩을 분리해 효율성을 높이면서도 cross-attention으로 풍부한 관련성 모델링을 유지한 리랭커입니다.
핵심 결론
- 성능 — BEIR에서 SOTA, Qwen3-Reranker 시리즈와 동등한 수준.
- 효율 — 문서 인코딩을 분리해 배치 처리와 캐싱에 유리, late interaction보다 빠르면서도 cross-attention으로 정확도 유지.
- MIRACL 다국어 벤치마크에서도 멀티링구얼 학습 없이 우수한 성능을 보였습니다.
방법
- 구조 — 인코더-디코더: 인코더가 문서를 Matryoshka embedding pooling으로 사전 인코딩, 디코더가 쿼리와 명령어를 처리.
- 분리 — 쿼리와 문서 인코딩이 분리되어 있어 문서 임베딩을 미리 계산해 캐싱 가능.
- 크로스-어텐션 — 디코더의 cross-attention이 쿼리 컨텍스트와 문서 표현 간 관련성을 모델링, late interaction보다 표현력이 풍부.
한계·조건
- 규모 — Nano(0.27B), Small(1B), Large(4B) 세 가지 크기로 제공.
- 데이터 — MIRACL 다국어 성능은 멀티링구얼 학습 없이도 좋지만, 추가 학습 시 더 개선될 여지가 있습니다.
- 코드 — Hugging Face에 모델 가중치와 추론 코드가 공개되어 있습니다.
편집자 한 줄
문서 인코딩 분리 아이디어는 실제 서비스에서 지연 시간과 비용을 크게 줄일 수 있는 실용적인 접근입니다.
- #reranker
- #retrieval
- #kalm-embedding
- #beir
- #efficiency
KaLM-Embedding