Papers·3개월 전

AgentSearchBench — 1만 개 실제 에이전트로 검색 성능 평가, 실행 신호가 설명 기반 검색보다 우수

AgentSearchBench는 약 1만 개의 실제 AI 에이전트를 대상으로 에이전트 검색 문제를 정형화한 대규모 벤치마크입니다. 실행 가능한 태스크 쿼리와 고수준 태스크 설명 모두에서 검색 및 재순위화 성능을 측정하며, 의미 유사도 기반 검색과 실제 에이전트 성능 간에 일관된 차이가 있음을 보여줍니다. 특히 실행 인식 프로빙 같은 가벼운 행동 신호가 순위 품질을 크게 개선해, 에이전트 발견에 실행 신호를 통합하는 중요성을 강조합니다.

#agent-search
#benchmark
#retrieval
#execution-signal

Bin Wu

원문 보기 →

AgentSearchBench — 1만 개 실제 에이전트로 검색 성능 평가, 실행 신호가 설명 기반 검색보다 우수

Comments