Papers·3일 전
TabEmbed: 범용 테이블 임베딩 모델 — TabBench 벤치마크에서 SOTA 텍스트 임베딩 대비 분류·검색 모두 우위

TabEmbed는 테이블 데이터를 위한 최초의 범용 임베딩 모델로, 분류와 검색을 공유 임베딩 공간에서 통합했습니다. 기존 LLM 기반 방식은 검색에 적합한 벡터를 만들지 못하고, 텍스트 임베딩 모델은 표 구조와 수치 의미를 잘 포착하지 못하는 한계를 극복하기 위해, 모든 태스크를 의미 매칭 문제로 재정의하고 positive-aware hard negative mining을 적용한 대조 학습을 사용합니다. TabBench 벤치마크에서 SOTA 텍스트 임베딩 모델을 크게 앞질렀으며, 코드와 데이터셋이 공개되어 있습니다.
- #tabular-data
- #embedding
- #contrastive-learning
- #tabbench
Minjie Qiang