Papers·1개월 전

FutureSim: AI 에이전트의 세계 예측 능력 측정 — 3개월 예측 정확도 최고 25%

Max Planck Institute 팀이 AI 에이전트가 실제 뉴스 흐름 속에서 미래 사건을 예측하는 능력을 평가하는 벤치마크 FutureSim을 공개했습니다. 2026년 1~3월 기간 동안 에이전트가 도착하는 뉴스를 보고 질문에 답하는 방식으로 측정한 결과, 최고 성능 모델의 정확도는 25%에 그쳤으며, 많은 모델이 아무 예측도 하지 않는 것보다 못한 Brier skill score를 기록했습니다. 이 벤치마크는 장기 시험-시간 적응, 검색, 메모리, 불확실성 추론 등 연구 방향을 현실적으로 평가할 수 있는 환경을 제공합니다.

#ai-agents
#benchmark
#future-prediction
#max-planck-institute

Max Planck Institute for Intelligent Systems

원문 보기 →

FutureSim: AI 에이전트의 세계 예측 능력 측정 — 3개월 예측 정확도 최고 25%

Comments