Papers·4일 전
Markov boundary 가 표 예측에 진짜 도움될까? SCM3K 3,450 태스크 실험

SCM3K 벤치마크(3,450 태스크, 40~1,000 features)에서 Markov boundary 로 regressor 를 제한하면 full feature 대비 예측이 크게 개선되지만, causal discovery 로 boundary 를 복원해 쓰는 파이프라인은 실패합니다. 원인은 discovery 가 구조 복원에 최적화되어 예측 비용을 고려하지 않고, false positive/negative 의 예측 비용이 비대칭적이기 때문입니다.
이론적으로는 Markov boundary 가 예측에 최적이지만, 실제 파이프라인에서는 discovery 단계가 병목이 됩니다.
핵심 결론
- 벤치 — SCM3K 3,450 태스크, feature 40~1,000, 6개 SCM family, 6개 regressor 평가.
- 성능 — Oracle boundary 로 제한 시 full feature 대비 예측 개선, 특히 feature 공간이 크고 sparse 할수록 효과 큼.
- 파이프라인 실패 — Causal discovery 로 boundary 복원 후 학습하면 full feature 를 거의 못 이깁니다.
방법
- 비교 — Oracle boundary, full feature, discovery-based mask, random mask 등 비교.
- 발견 — Discovery 는 구조 복원에 최적화되어 예측 비용을 고려하지 않음.
- False positive 와 false negative 의 예측 비용이 크게 비대칭적입니다.
- 정확한 boundary 외에도 full feature 를 이기는 다양한 feature set 이 존재합니다.
한계·조건
- 데이터 — 합성 SCM 데이터에 한정, 실제 데이터에서의 일반화는 추가 검증 필요.
- 비용 — Discovery 알고리즘이 compute budget 을 소진해 boundary 이점을 보기 전에 중단.
- 코드 — SCM3K 벤치마크와 실험 코드는 공개되어 있습니다.
편집자 한 줄
예측 성능을 직접 최적화하는 feature selection 이 causal discovery 보다 실용적일 수 있다는 시사점을 줍니다.
- #markov-boundary
- #tabular-prediction
- #causal-discovery
- #feature-selection
- #scm3k
Beyond the Blanket