Papers·어제
WebEye: 객체 탐지에 외부 지식이 필요한 '지각 딥 리서치' 벤치마크 — Pixel-Searcher로 3개 태스크에서 최고 성능

기존 객체 탐지는 이미지 내 정보나 모델 내부 지식으로 대상을 식별했지만, 실제로는 외부 사실·최근 사건·장기 테일 엔티티·다중 홉 관계를 먼저 해결해야 하는 경우가 많습니다. 이 문제를 '지각 딥 리서치(Perception Deep Research)'로 정식화하고, 검증 가능한 증거와 지식 집약적 쿼리, 정밀 박스/마스크 주석을 갖춘 WebEye 벤치마크를 공개했습니다. 120장 이미지, 473개 객체 인스턴스, 645개 QA 쌍, 1,927개 태스크 샘플로 구성되며, Search-based Grounding·Segmentation·VQA 세 가지 뷰를 제공합니다. 제안된 Pixel-Searcher 에이전트는 검색-픽셀 워크플로로 숨겨진 대상 정체를 해결하고 박스/마스크/정답에 바인딩하여 세 태스크 모두에서 오픈소스 최고 성능을 달성했습니다. 다만 실패 사례는 증거 획득·정체 해결·시각 인스턴스 바인딩 단계에서 주로 발생합니다.
- #perception
- #deep-research
- #webeye
- #pixel-searcher
- #object-detection
Bokang Yang