Papers·3개월 전

LLM 과학 에이전트, 증거 무시 68% — 반증 기반 신념 수정은 26%

Uni Jena 연구팀이 8개 과학 분야에서 25,000회 이상의 에이전트 실행을 분석한 결과, LLM 기반 과학 에이전트가 증거를 무시하는 비율이 68%에 달하고 반증 기반 신념 수정은 26%에 불과했다. 기본 모델이 성능과 행동의 분산 41.4%를 설명한 반면, 에이전트 스캐폴드는 1.5%에 그쳐 추론 결함이 근본적임을 보였다. 이러한 패턴은 워크플로우 실행과 가설 주도 탐구 모두에서 동일하게 나타났으며, 완벽한 추론 궤적을 컨텍스트로 제공해도 지속되었다. 연구진은 결과 기반 평가로는 이러한 실패를 감지할 수 없으며, 스캐폴드 엔지니어링만으로는 해결 불가능하고 추론 자체가 훈련 목표가 되어야 한다고 결론지었다.

#llm
#scientific-reasoning
#epistemic-norms
#uni-jena

Lab of Kevin Jablonka at Uni Jena

원문 보기 →

LLM 과학 에이전트, 증거 무시 68% — 반증 기반 신념 수정은 26%

Comments