← Back to feed
Papers·2일 전

테이블 직렬화 방식에 따른 임베딩 불안정성 해결 — Centroid 정렬로 검색 일관성 개선

테이블 직렬화 방식에 따른 임베딩 불안정성 해결 — Centroid 정렬로 검색 일관성 개선

Transformer 기반 테이블 검색 시스템은 CSV, HTML, Markdown 등 동일한 테이블을 다른 방식으로 직렬화할 때 임베딩과 검색 결과가 크게 달라지는 문제를 보입니다. 저자(Kushal Raj Bhandari)는 여러 직렬화 임베딩의 centroid를 canonical target으로 삼아 format-specific noise를 억제하는 접근을 제안했고, MPNet, BGE-M3, ReasonIR, SPLADE 등 다양한 retriever에서 centroid 표현이 개별 직렬화보다 일관되게 높은 순위를 기록했습니다. 또한 frozen encoder 위에 residual bottleneck adapter를 추가해 단일 직렬화 임베딩을 centroid 방향으로 정렬하는 방법도 제시했는데, dense retriever에서는 효과가 있었지만 sparse lexical retriever에서는 모델에 따라 이득이 제한적입니다. 코드와 데이터셋은 공개되었습니다.

Kushal Raj Bhandari

Comments

— 첫 댓글을 남겨보세요 —