Papers·5일 전
CoREB: 코드 검색·재순위화 벤치마크 — 5개 언어, 11개 임베딩 모델 평가 결과

LiveCodeBench 기반 CoREB 벤치마크로 11개 임베딩 모델과 5개 reranker를 평가한 결과, 코드 특화 임베딩이 code-to-code에서 일반 인코더 대비 2배 우수했지만 단일 모델이 모든 태스크를 석권하지는 못했습니다. 특히 짧은 키워드 쿼리에서는 모든 모델의 nDCG@10이 0에 가까웠고, 기성 reranker는 code-to-code에서 12포인트 편차를 보였습니다. 저자들이 공개한 CoREB-Reranker는 세 태스크 모두에서 일관된 개선을 달성한 첫 사례입니다.
- #code-search
- #reranking
- #benchmark
- #livecodebench
- #embedding
high-quality llm benchmarks