Papers·1개월 전

Baidu, 다중 에이전트 Deep Research 프레임워크 DuMate-DeepResearch 공개 — 두 벤치마크에서 SOTA

Baidu의 Qianfan Agent Foundry 기반 다중 에이전트 프레임워크 DuMate-DeepResearch가 DeepResearch Bench에서 58.03%, DeepResearch Bench II에서 61.95%로 최고 점수를 기록했습니다. 그래프 기반 동적 계획, 재귀적 2단계 실행, rubric 기반 test-time 최적화를 도입해 장기 계획과 환각 문제를 완화한 점이 특징입니다. 단, 이 프레임워크는 Baidu의 Qianfan 플랫폼에 종속적이며, 오픈소스로 공개되지 않았습니다.

Baidu가 다중 에이전트 Deep Research 프레임워크 DuMate-DeepResearch를 공개하며 두 벤치마크에서 SOTA를 달성했습니다.

핵심 결론

벤치마크 — DeepResearch Bench에서 58.03% (최고), DeepResearch Bench II에서 61.95% (최고) 기록.
순위 — DeepResearch Bench II에서 정보 재현 및 분석 부문 1위.

방법

아키텍처 — Agent Core(이해, 계획, 스케줄링)와 Tool Ecosystem(검색, 증거 수집, 보고서 생성)을 분리해 모든 중간 결정과 도구 호출을 추적 가능하게 설계.
그래프 기반 동적 계획 — 연구 로드맵을 coarse-to-fine으로 확장하고, reflection, 재계획, backtracking, 병렬 분기를 통해 지속적으로 수정.
재귀적 2단계 실행 — 복잡한 검색 하위 작업을 내부 Search Agent에 위임해 자체 계획 루프를 실행, 잡음이 많은 검색을 격리하고 장기 실행을 안정화.
Rubric 기반 최적화 — 테스트 시점에 작업별 품질 기준을 동적으로 생성하고, 이를 실시간 추론 스캐폴드로 사용해 증거 기반 합성과 적응형 중단을 수행.

한계·조건

플랫폼 종속 — Baidu Qianfan Agent Foundry 위에 구축되어 외부에서 재현하기 어려움.
공개 여부 — 코드나 모델은 공개되지 않았으며, 기술 보고서 형태로만 제공.
비용 — 다중 에이전트 구조와 반복적 계획으로 인해 추론 비용이 높을 가능성.

편집자 한 줄

다중 에이전트와 동적 계획을 체계적으로 결합한 점은 인상적이지만, 플랫폼 종속성과 비공개 정책이 범용성에 걸림돌이네요.

#deep-research
#multi-agent
#baidu
#qianfan
#agent-framework

BAIDU

원문 보기 →

Baidu, 다중 에이전트 Deep Research 프레임워크 DuMate-DeepResearch 공개 — 두 벤치마크에서 SOTA

핵심 결론

방법

한계·조건

Comments