Papers·3일 전
TRL-Bench: 표 형식 표현 학습 평가 벤치마크 — 20개 모델, 16개 태스크에서 능력별 비교

중국 홍콩중문대학(선전) 연구팀이 표 형식 표현 학습(TRL)을 위한 다중 세분화 벤치마크 TRL-Bench를 공개했습니다. 기존에는 태스크별 end-to-end 파이프라인 안에서만 평가되던 표 인코더를, 행/열/테이블 임베딩 수준에서 표준화된 방식으로 비교할 수 있게 설계했습니다. 20개 모델, 16개 태스크 평가 결과, 인코더 품질은 능력별로 달라 단일 리더보드로는 포착되지 않는다는 점을 보였습니다.
표 인코더를 태스크별 파이프라인 밖에서 직접 비교할 수 있는 표준 벤치마크가 나왔습니다.
핵심 결론
- 범위 — 20개 모델, 16개 태스크, 3개 평가군(CTbench, Rbench, DLTE)으로 구성.
- 발견 — 인코더 품질은 능력별로 특화되어 있어, 단일 순위로는 비교 불가.
- 일반 텍스트 인코더는 표면 텍스트 신호가 강한 태스크에서 우세했고, 표 특화 인코더는 사전학습 목적이 태스크와 일치할 때 강했습니다.
방법
- 표준화 — 각 인코더가 행/열/테이블 임베딩을 추출하고, 공유된 경량 헤드로 태스크를 수행합니다.
- 데이터 — 50개 OpenML 테이블(123개 검증 타깃), 16개 행 쌍 연결 재작성, 1,379개 부모 테이블에서 파생된 47,772개 DLTE 레이크를 포함.
- DLTE 파이프라인에서 가장 강력한 조합은 능력별 전문가를 혼합한 경우였으며, end-to-end 품질은 단계별 순위보다 비가산적 구성 적합도에 의존했습니다.
한계·조건
- 재현성 — 코드와 데이터는 GitHub에 공개되었습니다.
- 범위 — 벤치마크는 표 형식 데이터에 한정되며, 이미지나 텍스트 도메인으로의 일반화는 검증되지 않았습니다.
편집자 한 줄
표 인코더 평가의 표준화된 프로토콜이 필요했던 시점에 잘 나온 벤치마크네요.
- #tabular-representation-learning
- #benchmark
- #cuhksz
Chinese University of Hong Kong, Shenzhen