← Back to feed
Papers·1주 전

L2C2: 강화학습으로 Tabular Foundation Model의 사전 정렬 — TabPFN 정확도 0.851 vs 0.843

L2C2: 강화학습으로 Tabular Foundation Model의 사전 정렬 — TabPFN 정확도 0.851 vs 0.843

Laure Berti-Equille 팀이 제안한 L2C2는 강화학습을 통해 테이블 데이터의 결측치·이상치·중복을 순차적으로 정제하여 TabPFN 같은 Tabular Foundation Model(TFM)의 사전 분포와 실제 데이터 간 격차를 줄입니다. 10개 OpenML 데이터셋 실험에서 제안한 TFMAwareReward 보상이 4/10 데이터셋에서 서로 다른 파이프라인을 선택하며 TabPFN 정확도를 평균 0.851로 향상(대조군 0.843, p=0.063)했고, 파라미터화된 정제 동작은 9/10 데이터셋에서 보상을 개선했습니다. 단, 7개 보상 설계 중 3개는 무의미한 전략으로 붕괴해 보상 엔지니어링이 까다롭다는 한계도 드러났습니다.

Laure Berti-Equille

Comments

— 첫 댓글을 남겨보세요 —