Papers·5일 전
중국홍콩중문대, 모순 처리 가능한 멀티모달 딥 리서치 에이전트 Struct-Searcher — BrowseComp-VL 정확도 17.2% 향상

중국홍콩중문대 연구팀이 belief revision theory에 기반한 구조적 에이전트 Struct-Searcher를 제안했습니다. 기존 evidence accumulation 방식과 달리, 이질적 모달리티 간 모순 정보를 명시적으로 처리하는 멀티모달 구조 그래프를 유지하며 추론합니다. BrowseComp-VL에서 5개 백본 모델 평균 17.2% 상대 정확도 향상을 보였고, MM-BrowseComp, HLE-VL, BrowseComp-VL에서 각각 SOTA 대비 3.7%, 1.5%, 0.7% 개선을 달성했습니다. 단, 벤치마크가 제한적이며 실제 웹 환경에서의 일반화는 추가 검증이 필요합니다.
중국홍콩중문대 연구팀이 모순 정보를 처리할 수 있는 멀티모달 딥 리서치 에이전트 Struct-Searcher를 공개했습니다.
핵심 결론
- 성능 — BrowseComp-VL에서 5개 백본 모델 평균 17.2% 상대 정확도 향상, SOTA 대비 MM-BrowseComp 3.7%, HLE-VL 1.5%, BrowseComp-VL 0.7% 개선.
- 특징 — 모델에 무관하게(plug-and-play) 적용 가능하며, 다양한 VLM 백본에서 일관된 성능 향상을 보입니다.
방법
- 핵심 아이디어 — Belief revision theory에 기반해, 텍스트와 이미지 등 이질적 모달리티 간 모순 정보를 명시적으로 처리하는 멀티모달 구조 그래프를 유지하며 추론합니다.
- 기존과 차이 — 기존 evidence accumulation 방식은 정보를 선형적으로 축적해 모순을 다루지 못하지만, Struct-Searcher는 그래프 구조를 통해 충돌 정보를 통합하고 갱신합니다.
한계·조건
- 벤치마크 — BrowseComp-VL, MM-BrowseComp, HLE-VL 등 제한된 벤치마크에서만 평가되어 실제 웹 환경 일반화는 추가 검증 필요.
- 리소스 — 멀티모달 그래프 유지로 인한 계산 오버헤드가 있을 수 있으나, 논문에서 구체적인 latency 분석은 제공되지 않았습니다.
편집자 한 줄
모순 처리를 구조화한 점은 실용적으로 보이지만, 벤치마크가 특정 태스크에 편중된 느낌이라 더 다양한 환경에서의 검증이 기대됩니다.
- #multimodal
- #deep-research
- #agent
- #belief-revision
- #cuhk
The Chinese University of Hong Kong