Papers·1개월 전

InterLV-Search: 다중 모달 에이전트 검색에서 시각 증거를 반복 활용하는 벤치마크 — 최고 모델도 정확도 50% 미만

기존 멀티모달 검색 벤치마크는 시각 증거를 입력에만 한정하거나 답변 종점으로만 다루었으나, InterLV-Search는 텍스트와 이미지 증거를 검색 궤적 내에서 반복적으로 조건화하는 Interleaved Language-Vision Agentic Search를 평가합니다. 2,061개 예제로 구성되며, 능동적 시각 증거 탐색, 오프라인·오픈웹 검색 등 세 수준과 다중 엔티티 비교를 포함한 다중 분기 샘플을 포함합니다. 자동화 파이프라인과 인간 감독 오픈웹 파이프라인으로 구축되었으며, InterLV-Agent로 표준화된 도구 사용과 평가를 제공합니다. 실험 결과 최고 모델도 전체 정확도 50% 미만으로, 시각 증거 탐색과 통합에 큰 과제가 남아 있습니다.

#multimodal
#agentic-search
#benchmark
#interleaved

Bohan Hou

원문 보기 →

InterLV-Search: 다중 모달 에이전트 검색에서 시각 증거를 반복 활용하는 벤치마크 — 최고 모델도 정확도 50% 미만

Comments