Papers·3개월 전

BAAI, AI 에이전트의 과학 문헌 탐색 능력 평가 벤치마크 AutoResearchBench 공개 — GPT-4o도 10% 미만

BAAI(베이징 인공지능 연구원)가 AI 에이전트의 자율적 과학 문헌 탐색 능력을 평가하는 벤치마크 AutoResearchBench를 공개했습니다. Deep Research(특정 논문 추적)와 Wide Research(조건에 맞는 논문 수집) 두 태스크로 구성되며, 최신 LLM(GPT-4o 등)도 Deep Research에서 9.39%, Wide Research에서 9.31% IoU에 그칠 정도로 어렵습니다. 기존 BrowseComp 같은 일반 웹 브라우징 벤치마크와 달리, 과학 개념 이해와 세부 정보 활용, 개방형 탐색을 요구한다는 점이 특징입니다. 데이터셋과 평가 파이프라인은 GitHub에 공개되었습니다.

#benchmark
#ai-agent
#scientific-discovery
#baai

Beijing Academy of Artificial Intelligence

원문 보기 →

BAAI, AI 에이전트의 과학 문헌 탐색 능력 평가 벤치마크 AutoResearchBench 공개 — GPT-4o도 10% 미만

Comments