Papers·4일 전
XBCP: 크로스링구얼 증거 검색에서 딥 리서치 에이전트의 성능 저하

UTokyo Yokoya Lab이 다국어 증거 검색 벤치마크 XBCP를 제안했습니다. BrowseComp-Plus의 영어 QA 공간을 유지한 채 증거 문서 언어를 12개 언어로 바꾸어, 딥 리서치 에이전트가 언어 불일치 상황에서 정확도와 증거 재현율이 크게 떨어짐을 보였습니다. 흥미로운 점은, 모든 정답 증거를 직접 제공해도 정확도가 회복되지 않아, 검색 실패 외에도 에이전트가 언어가 다른 증거를 통합하는 데 독립적인 어려움을 겪는다는 점입니다.
UTokyo Yokoya Lab이 다국어 증거 검색 환경에서 딥 리서치 에이전트의 성능을 평가하는 벤치마크 XBCP를 공개했습니다.
핵심 결론
- 벤치 — BrowseComp-Plus의 영어 QA 공간을 유지, 증거 문서 언어를 12개 언어로 변환한 XBCP.
- 성능 — 강력한 dense retriever도 증거 재현율이 떨어지고, 에이전트의 보정과 인용 신뢰도가 저하됩니다.
- 주요 발견 — 모든 정답 증거를 직접 제공해도 정확도가 회복되지 않아, 검색 실패 외에도 언어 불일치 증거 통합의 어려움이 있음을 시사합니다.
방법
- 설정 — 크로스링구얼 설정(질문당 단일 언어 증거)과 다국어 설정(12개 언어 균등 분포) 두 가지.
- 에이전트 — 4종 딥 리서치 에이전트를 sparse/dense 다국어 retriever와 함께 평가.
- 메트릭 — 정답 정확도, 증거 재현율, 검색 행동, 보정, 인용 충실도, 오라클 검색 등.
한계·조건
- 범위 — BrowseComp-Plus의 질문·답변 공간에 국한되어, 다른 도메인으로 일반화는 추가 연구 필요.
- 언어 — 12개 언어 중 저자원 언어 비율이 낮아, 더 다양한 언어에서 검증 필요.
- 코드 — 현재 논문과 벤치마크는 Hugging Face에 공개, 에이전트 코드는 미공개.
편집자 한 줄
증거를 직접 줘도 성능이 안 오른다는 점이 인상적입니다. 에이전트 내부 추론 과정에서 언어 장벽이 어떻게 작용하는지 후속 분석이 기대됩니다.
- #deep-research
- #cross-lingual
- #benchmark
- #retrieval
- #utokyo
UTokyo Yokoya Lab