Papers·1주 전
AI 연구 에이전트 평가 벤치마크 ResearchClawBench — 40개 태스크 평균 점수 21.5/100

Wanghan Xu 팀이 AI 에이전트의 자율 과학 연구 능력을 평가하는 벤치마크 ResearchClawBench를 공개했습니다. 10개 과학 분야 40개 태스크에 대해 실제 논문 기반의 데이터와 평가 루브릭을 제공하며, 최고 성능 에이전트(Claude Code)도 평균 21.5점에 그쳐 재현적 발견에 아직 한계가 있음을 보여줍니다. 실험 프로토콜 불일치, 증거 불일치, 과학적 핵심 누락이 주요 실패 원인으로 분석되었습니다.
Wanghan Xu 팀이 AI 에이전트의 자율 과학 연구 능력을 평가하는 벤치마크 ResearchClawBench를 공개했습니다.
핵심 결론
- 태스크 — 10개 과학 분야 40개 태스크, 각각 실제 출판 논문 기반.
- 최고 점수 — Claude Code 평균 21.5, Claude-Opus-4.7 20.7, LLM 평균 26.5로 재현적 발견에 크게 미달.
- 주요 실패 — 실험 프로토콜 불일치, 증거 불일치, 과학적 핵심 누락이 주된 원인.
방법
- 데이터 구성 — 각 태스크는 관련 문헌과 원시 데이터를 제공하며, 평가 중에는 타겟 논문을 숨깁니다.
- 평가 루브릭 — 전문가가 큐레이션한 다중 모드 루브릭으로 과학적 아티팩트를 가중치 기준으로 분해, 재발견과 새 발견을 모두 평가.
- 프로토콜 — 7개 자율 연구 에이전트와 17개 네이티브 LLM을 통일된 프로토콜로 평가.
한계·조건
- 벤치 범위 — 40개 태스크로 제한되며, 각 분야당 4개씩이라 일반화에는 한계가 있습니다.
- 재현성 — 데이터와 루브릭은 공개되어 재현 가능하나, 평가 비용이 높을 수 있습니다.
- 에이전트 — Claude Code 등 상용 에이전트에 의존적이며, 오픈소스 에이전트 성능은 더 낮을 가능성이 큽니다.
편집자 한 줄
자율 과학 연구의 현주소를 냉정하게 보여주는 벤치마크입니다. 점수 자체는 낮지만, 실패 원인 분석이 향후 개선 방향을 제시한다는 점에서 의미가 있습니다.
- #benchmark
- #scientific-research
- #ai-agents
- #evaluation
Wanghan Xu