Papers·2주 전
UIUC, LLM 에이전트의 인과 추론 능력 평가 환경 CausaLab 공개 — 예측 정확도 92%지만 구조 복원 F1 0.471

UIUC 팀이 LLM 에이전트의 상호작용적 인과 발견 능력을 평가하는 환경 CausaLab을 공개했습니다. 6노드 관찰 설정에서 GPT-5.2-high가 태스크 정확도 92%를 달성했지만, 인과 그래프의 모든 엣지 복원 F1 점수는 0.471에 그쳐 예측 성공과 인과 이해 사이에 큰 간극이 있음을 드러냈습니다. 조기 중단( premature stopping )이 주요 약점으로 확인되었으며, 일관성 검증이 이를 완화할 수 있음을 보였습니다.
LLM 에이전트가 예측은 잘 하지만 진짜 인과 구조를 이해하는지는 별개라는 걸 보여주는 벤치마크가 나왔습니다.
핵심 결론
- 태스크 — CausaLab은 LLM 에이전트가 관찰 데이터와 개입 실험을 통해 숨겨진 구조적 인과 모델(SCM)을 복원하고 예측하는 능력을 평가합니다.
- 수치 — 순수 관찰 6노드 설정에서 GPT-5.2-high는 태스크 정확도 92%를 기록했지만, all-edge F1은 0.471에 불과했습니다.
- 격차 — 예측 성공과 인과 메커니즘 복원 사이에 큰 간극이 존재하며, 이는 현재 LLM 에이전트가 진정한 인과 추론을 수행하지 못함을 시사합니다.
방법
- 환경 — 각 에피소드는 합성 실험실에서 진행되며, 에이전트는 사전 측정 기록을 받고 조작 결정을 내린 후 결과를 예측합니다.
- 데이터 생성 — 숨겨진 데이터 생성 과정은 무작위로 샘플링된 SCM으로, 인과 그래프와 구조 방정식을 모두 복원해야 성공합니다.
- 전략 비교 — 관찰과 개입을 혼합한 전략이 구조 충실도를 높였으나, 순수 개입 전략은 강력한 에이전트에게도 어려웠습니다.
한계·조건
- 스케일 — 현재 평가는 최대 6노드 SCM으로 제한되며, 더 큰 그래프에서의 일반화는 아직 검증되지 않았습니다.
- 에이전트 — 평가된 모델은 GPT-5.2-high 등 특정 LLM에 국한되며, 다른 아키텍처나 학습 방식에서의 결과는 다를 수 있습니다.
- 코드 — 환경은 공개되어 재현 가능하나, 구체적인 라이선스나 설치 방법은 논문에서 확인해야 합니다.
편집자 한 줄
예측만 잘하는 모델에게 '인과 추론 능력이 있다'고 말하기 어렵다는 걸 실험적으로 보여준 점이 의미 있습니다.
- #causal-discovery
- #llm-agent
- #evaluation
- #uiuc
University of Illinois at Urbana-Champaign