Papers·어제
EvoBrowseComp — 실시간 웹 탐색으로 오염 없는 벤치마크 자동 생성, BrowseComp 대비 난이도 상승

Search Agent 의 진정한 검색 능력을 측정하기 위해, 정적 지식에 의존하지 않고 라이브 웹에서 QA 쌍을 합성하는 EvoBrowseComp 를 제안했습니다. 세 에이전트(합성·필터·가이드)가 협력해 400개 영어·400개 중국어 문항을 만들며, 정기 업데이트로 데이터 오염을 막습니다. BrowseComp 대비 폭넓은 수평 검색을 요구해 높은 난이도를 보였습니다.
기존 BrowseComp 는 정적 지식 기반이라 오염에 취약했는데, EvoBrowseComp 는 라이브 웹에서 질문을 실시간 합성해 이 문제를 해결합니다.
핵심 결론
- 태스크 — Search Agent 의 브라우징 능력을 측정하는 진화형 벤치마크 — 400 영어 + 400 중국어 문항.
- 개선 — 정적 지식 오염을 차단해 진짜 검색 능력만 평가하며, BrowseComp 대비 더 넓은 수평 검색이 필요합니다.
방법
- 3-에이전트 — QA 합성 에이전트가 라이브 웹에서 신선한 지식을 수집하고, 정보 필터 에이전트가 신뢰도·인기도로 parametric shortcut 을 차단하며, 고수준 가이드 에이전트가 추론 그래프로 논리적 중복을 줄입니다.
- 완전 자동화된 파이프라인이라 정기 업데이트가 가능해 시간적 신선도를 유지합니다.
한계·조건
- 난이도 — 실험 결과 기존 BrowseComp 보다 훨씬 어려워, 단순 사실 회상만으로는 높은 점수를 얻기 어렵습니다.
- 범위 — 현재 영어와 중국어만 지원하며, 다른 언어로의 확장은 아직입니다.
- 코드 — 데이터셋과 합성 코드는 Hugging Face 에 공개 예정이라고 합니다.
편집자 한 줄
라이브 웹 기반 자동 업데이트라는 아이디어는 깔끔하지만, 질문의 질과 난이도 일관성을 유지하는 게 실제 운영에서 관건이 될 듯합니다.
- #search-agents
- #benchmark
- #evolving
- #live-web
- #contamination-free
Yunhan Wang