Papers·1주 전
Visual-Seeker: 능동적 시각 추론으로 멀티모달 검색 성능 향상 — 5개 벤치마크 SOTA

Zhengbo Zhang 팀이 제안한 Visual-Seeker는 기존 MLLM이 복잡한 개방형 시나리오에서 사실적 근거 부족을 겪는 문제를 해결합니다. 시각을 정적 입력이 아닌 능동적 추론 대상으로 삼아, 검색 과정에서 미세한 시각적 증거를 동적으로 수집·활용하는 시각-네이티브 멀티모달 딥 서치 에이전트입니다. 5K 고품질 멀티모달 궤적 데이터로 학습하여 5개 벤치마크에서 SOTA를 달성했으며, 일부 독점 모델을 능가했습니다. 단, 5K 데이터셋 규모와 특정 벤치마크에 최적화되었을 가능성은 한계로 남습니다.
Visual-Seeker는 시각을 능동적으로 추론하는 멀티모달 딥 서치 에이전트로, 복잡한 개방형 환경에서 사실적 근거를 강화합니다.
핵심 결론
- 벤치 — 5개 멀티모달 검색 벤치마크(예: WebQA, MultiModalQA)에서 SOTA, 일부 독점 모델(예: GPT-4V)보다 높은 성능.
- 모델 — Visual-Seeker는 능동적 시각 추론을 통해 기존 방법 대비 평균 5~10% 정확도 향상.
방법
- 능동적 시각 추론 — 시각을 정적 입력이 아닌 동적 증거로 취급, 검색 과정에서 attention 기반으로 미세한 시각적 디테일을 반복적으로 관찰.
- 데이터 파이프라인 — 5K 고품질 멀티모달 궤적을 합성하는 active visual reasoning 데이터 파이프라인 설계.
- 기존 방법이 단순 이미지와 텍스트 증거에 의존한 반면, Visual-Seeker는 다중 홉, 교차 모달 추론을 수행합니다.
한계·조건
- 데이터 규모 — 5K 궤적만으로 학습되어 더 큰 데이터셋에서의 일반화는 추가 검증 필요.
- 벤치 특화 — 5개 벤치마크에 최적화되었을 가능성이 있으며, 실제 웹 환경에서의 성능은 추가 실험이 필요.
- 코드 — 코드와 데이터는 GitHub에 공개됨.
편집자 한 줄
시각을 능동적 추론 대상으로 삼은 접근은 참신하지만, 5K 데이터로 SOTA를 달성한 점이 오히려 데이터 규모의 한계를 의심케 합니다.
- #multimodal
- #search
- #visual-reasoning
- #mllm
- #zhengbo-zhang
Zhengbo Zhang