Papers·어제

NatureBench: AI 코딩 에이전트가 과학적 발견을 재현할 수 있는지 평가하는 90개 태스크 벤치마크

Frontis AI 팀이 Nature 계열 논문에서 추출한 90개 태스크로 구성된 벤치마크 NatureBench를 공개했습니다. 최고 성능 에이전트도 단 17.8%의 태스크에서만 SOTA를 넘었으며, 성공 사례 대부분은 과학적 발명보다 방법론적 번역(과학 문제를 익숙한 지도 예측 문제로 변환)에 기반했습니다. 실패 원인은 주로 잘못된 방법 선택과 부족한 compute 예산이었고, 태스크 이해 부족은 아니었습니다. 코드와 파이프라인은 GitHub에 공개되었습니다.

Frontis AI가 Nature 계열 논문에서 추출한 90개 과학 태스크로 AI 코딩 에이전트의 재현 능력을 평가하는 벤치마크를 공개했습니다.

핵심 결론

벤치마크 — NatureBench는 Nature-family 출판물에서 추출한 90개 태스크로, 재현을 넘어 발견(discovery)으로의 전환을 평가합니다.
성능 — 최고 에이전트도 g>0.1 기준에서 17.8% 태스크만 SOTA를 초과했습니다.
실패 원인 — 실패의 주된 원인은 잘못된 방법 선택과 부족한 compute 예산이었고, 태스크 이해 부족은 아니었습니다.

방법

NatureGym — 소스 논문에서 표준화된 컨테이너 환경을 자동 구축하는 파이프라인으로, 환경 파편화 문제를 해결합니다.
평가 프로토콜 — 웹 검색 비활성화 상태에서 10개 최신 에이전트 구성을 엄격히 평가했습니다.
성공 사례 분석 결과, 에이전트는 과학적 발명보다는 과학 문제를 익숙한 지도 예측 문제로 변환하는 방법론적 번역에 주로 성공했습니다.

한계·조건

벤치 범위 — Nature-family 논문에 국한되어 있으며, 모든 과학 분야를 대표하지는 않습니다.
재현성 — 코드와 NatureGym 파이프라인, 리더보드는 GitHub에 공개되었으며 maintainer-side 재현을 지원합니다.
리소스 — 에이전트 평가에는 상당한 compute 예산이 필요하며, 실패의 주요 원인 중 하나로 지목됩니다.

편집자 한 줄

과학적 발견을 위한 AI 에이전트의 현재 한계를 명확히 보여주는 벤치마크입니다. 방법론적 번역에 치우친 성공 패턴은 흥미로운 포인트네요.

#benchmark
#ai-agents
#scientific-discovery
#naturebench
#frontis-ai

Frontis AI

원문 보기 →

NatureBench: AI 코딩 에이전트가 과학적 발견을 재현할 수 있는지 평가하는 90개 태스크 벤치마크

핵심 결론

방법

한계·조건

Comments