Papers·1주 전

DailyReport — 일상 검색 150개 태스크로 SA 평가, 17개 시스템 모두 사용자 기대 미달

Search Agents(SA) 평가용 오픈엔드 벤치마크 DailyReport가 공개됐습니다. 150개 일상 검색 태스크를 3,546개 세부 루브릭으로 분해해 cascade 평가로 해석 가능한 점수를 산출합니다. 17개 에이전트 시스템 평가 결과, 현재 시스템은 모두 사용자 기대에 미치지 못했습니다.

일상 검색 태스크 150개로 SA 성능을 해석 가능하게 평가하는 DailyReport 벤치마크가 공개됐습니다.

핵심 결론

벤치마크 — 150개 오픈엔드 태스크, 3,546개 루브릭 — 실제 사용자 정보 요구를 반영한 일상 검색 과제.
결과 — 17개 에이전트 시스템 모두 사용자 기대치에 미달. 가장 높은 점수도 70% 미만.

방법

태스크 분해 — 각 태스크를 서브태스크로 나누고, cascade 루브릭으로 차원별 점수를 산출합니다.
사용자 중심 집계로 각 차원의 해석 가능한 점수와 사용자 선호 점수를 도출하는 게 특징입니다.

한계·조건

범위 — 일상 검색에 특화되어 전문 도메인(의료, 법률) 태스크는 포함되지 않았습니다.
재현성 — 데이터셋과 코드는 GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

SA 평가가 점차 실제 사용자 시나리오로 이동하는 추세를 반영한 벤치마크네요. cascade 루브릭 설계는 디버깅에 유용해 보입니다.

#search-agents
#benchmark
#llm
#evaluation

Jingxuan Han

원문 보기 →

DailyReport — 일상 검색 150개 태스크로 SA 평가, 17개 시스템 모두 사용자 기대 미달

핵심 결론

방법

한계·조건

Comments