Papers·6일 전
PhySciBench: 물리·화학 과학 추론 에이전트 평가 — DelveAgent 가 정확도 7.5%p 개선, 비용 1/3

Shanghai AI Lab 팀이 물리·화학 분야 과학 연구 추론을 평가하는 200문항 벤치마크 PhySciBench를 공개했습니다. 최고 baseline(Gemini Deep Research)의 정확도가 33.5%에 그친 반면, 제안한 DelveAgent는 적응형 계획 루프·이중 메모리·계층적 물리 기반 반성(reflection)을 갖춘 모듈형 멀티에이전트 프레임워크로, 4개 과학 벤치마크에서 정확도를 최대 7.5%p 높이고 추론 비용을 약 1/3로 줄였습니다. 단, 200문항 규모와 특정 도메인(물리·화학)에 한정되어 일반화 가능성은 추가 검증이 필요합니다.
물리·화학 과학 연구를 위한 LLM 기반 딥 리서치 에이전트의 능력을 종합 평가하는 벤치마크 PhySciBench가 등장했습니다.
핵심 결론
- 벤치마크 — PhySciBench: 물리·화학 각 100문항, 6개 태스크(실험 설계·데이터 해석·모델링 등)로 구성. 전문가 큐레이션.
- 최고 성능 — Gemini Deep Research가 33.5% 정확도로 가장 높았으나, 여전히 낮은 수준.
- 제안 모델 — DelveAgent: 모듈형 멀티에이전트 프레임워크로, 4개 과학 벤치마크에서 정확도 최대 7.5%p 향상, 추론 비용 약 1/3로 감소.
방법
- 적응형 계획 — 태스크 복잡도에 따라 계획 깊이를 동적으로 조절하는 루프.
- 이중 메모리 — 단기(step별)와 장기(전체 태스크) granularity 메모리로 지식 전이 강화.
- 물리 기반 반성 — 물리 법칙에 기반한 계층적 self-verification으로 오류 검출 및 수정.
한계·조건
- 벤치 규모 — 200문항으로 제한적이며, 물리·화학 외 생물·지구과학 등은 미포함.
- 일반화 — DelveAgent의 성능 향상이 특정 도메인에 국한될 가능성 있음.
- 코드 — GitHub 공개 예정 (현재 abstract만 확인 가능).
편집자 한 줄
과학 추론 에이전트의 현주소를 잘 보여주는 벤치마크입니다. DelveAgent의 비용 효율성은 주목할 만하지만, 200문항 규모에서의 통계적 유의성은 좀 더 지켜봐야겠네요.
- #benchmark
- #multi-agent
- #scientific-reasoning
- #shanghai-ai-lab
shanghai ailab