Papers·1개월 전

Markov boundary 가 표 예측에 진짜 도움될까? SCM3K 3,450 태스크 실험

SCM3K 벤치마크(3,450 태스크, 40~1,000 features)에서 Markov boundary 로 regressor 를 제한하면 full feature 대비 예측이 크게 개선되지만, causal discovery 로 boundary 를 복원해 쓰는 파이프라인은 실패합니다. 원인은 discovery 가 구조 복원에 최적화되어 예측 비용을 고려하지 않고, false positive/negative 의 예측 비용이 비대칭적이기 때문입니다.

이론적으로는 Markov boundary 가 예측에 최적이지만, 실제 파이프라인에서는 discovery 단계가 병목이 됩니다.

핵심 결론

벤치 — SCM3K 3,450 태스크, feature 40~1,000, 6개 SCM family, 6개 regressor 평가.
성능 — Oracle boundary 로 제한 시 full feature 대비 예측 개선, 특히 feature 공간이 크고 sparse 할수록 효과 큼.
파이프라인 실패 — Causal discovery 로 boundary 복원 후 학습하면 full feature 를 거의 못 이깁니다.

방법

비교 — Oracle boundary, full feature, discovery-based mask, random mask 등 비교.
발견 — Discovery 는 구조 복원에 최적화되어 예측 비용을 고려하지 않음.
False positive 와 false negative 의 예측 비용이 크게 비대칭적입니다.
정확한 boundary 외에도 full feature 를 이기는 다양한 feature set 이 존재합니다.

한계·조건

데이터 — 합성 SCM 데이터에 한정, 실제 데이터에서의 일반화는 추가 검증 필요.
비용 — Discovery 알고리즘이 compute budget 을 소진해 boundary 이점을 보기 전에 중단.
코드 — SCM3K 벤치마크와 실험 코드는 공개되어 있습니다.

편집자 한 줄

예측 성능을 직접 최적화하는 feature selection 이 causal discovery 보다 실용적일 수 있다는 시사점을 줍니다.

#markov-boundary
#tabular-prediction
#causal-discovery
#feature-selection
#scm3k

Beyond the Blanket

원문 보기 →

Markov boundary 가 표 예측에 진짜 도움될까? SCM3K 3,450 태스크 실험

핵심 결론

방법

한계·조건

Comments