Papers·어제
SemBridge: 다국어 희소 인코더를 위한 임베딩 초기화 방법 — 5개 언어 4개 아키텍처에서 zero-shot 검색 성능 향상

고려대 팀이 희소 인코더의 언어 전이 한계를 해결할 SemBridge를 제안했습니다. 다국어 밀집 임베딩을 브릿지로 삼아 소스-타겟 어휘 간 의미 정렬을 수행하고, 타겟 토큰을 핵심 동의어의 선형 결합으로 초기화합니다. 5개 언어와 4개 희소 아키텍처 실험에서 zero-shot 및 fine-tune 후 검색 성능이 기존 대비 일관되게 개선되었습니다. 다만 실험 언어가 유럽어 중심이라 typologically distant 언어에 대한 일반화는 추가 검증이 필요해 보입니다.
- #sparse-encoder
- #cross-lingual
- #embedding-initialization
- #korea-university
NLP & AI - Korea University