Papers·3일 전
HyperEyes: 병렬 멀티모달 검색 에이전트 — 정확도 9.9% 향상, 툴 호출 5.3배 감소

Xiaohongshu 팀이 멀티모달 검색 에이전트의 비효율적인 순차적 툴 호출 문제를 해결하는 HyperEyes를 공개했습니다. 기존 에이전트가 개체별로 순차 호출하며 라운드가 누적되는 반면, HyperEyes는 시각적 grounding과 검색을 하나의 원자적 행동으로 통합, 여러 개체를 동시에 검색합니다. Dual-Grained Efficiency-Aware RL 프레임워크로 매크로 수준의 TRACE 보상과 마이크로 수준의 On-Policy Distillation을 도입해 불필요한 툴 호출을 억제하고 토큰 수준의 학습 신호를 제공합니다. 6개 벤치마크에서 HyperEyes-30B는 가장 강력한 오픈소스 에이전트 대비 정확도 9.9% 향상, 평균 툴 호출 라운드 5.3배 감소를 달성했습니다. 단, 300개 인스턴스의 IMEB 벤치마크는 인간 큐레이션으로, 실제 환경에서의 일반화는 추가 검증이 필요합니다.
- #multimodal
- #search-agent
- #reinforcement-learning
- #xiaohongshu
Xiaohongshu