← Back to feed
Papers·4일 전

Markov boundary 가 표 예측에 진짜 도움될까? SCM3K 3,450 태스크 실험

Markov boundary 가 표 예측에 진짜 도움될까? SCM3K 3,450 태스크 실험

SCM3K 벤치마크(3,450 태스크, 40~1,000 features)에서 Markov boundary 로 regressor 를 제한하면 full feature 대비 예측이 크게 개선되지만, causal discovery 로 boundary 를 복원해 쓰는 파이프라인은 실패합니다. 원인은 discovery 가 구조 복원에 최적화되어 예측 비용을 고려하지 않고, false positive/negative 의 예측 비용이 비대칭적이기 때문입니다.

이론적으로는 Markov boundary 가 예측에 최적이지만, 실제 파이프라인에서는 discovery 단계가 병목이 됩니다.

핵심 결론

  • 벤치SCM3K 3,450 태스크, feature 40~1,000, 6개 SCM family, 6개 regressor 평가.
  • 성능Oracle boundary 로 제한 시 full feature 대비 예측 개선, 특히 feature 공간이 크고 sparse 할수록 효과 큼.
  • 파이프라인 실패Causal discovery 로 boundary 복원 후 학습하면 full feature 를 거의 못 이깁니다.

방법

  • 비교Oracle boundary, full feature, discovery-based mask, random mask 등 비교.
  • 발견Discovery 는 구조 복원에 최적화되어 예측 비용을 고려하지 않음.
  • False positive 와 false negative 의 예측 비용이 크게 비대칭적입니다.
  • 정확한 boundary 외에도 full feature 를 이기는 다양한 feature set 이 존재합니다.

한계·조건

  • 데이터합성 SCM 데이터에 한정, 실제 데이터에서의 일반화는 추가 검증 필요.
  • 비용Discovery 알고리즘이 compute budget 을 소진해 boundary 이점을 보기 전에 중단.
  • 코드SCM3K 벤치마크와 실험 코드는 공개되어 있습니다.

편집자 한 줄

예측 성능을 직접 최적화하는 feature selection 이 causal discovery 보다 실용적일 수 있다는 시사점을 줍니다.

  • #markov-boundary
  • #tabular-prediction
  • #causal-discovery
  • #feature-selection
  • #scm3k
Beyond the Blanket
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —