← Back to feed
Papers·2일 전

ODE: 이미지 뱅크로 시각 정보 재사용, Qwen3-VL-8B 에이전트 평균 24.9% → 39.0%

ODE: 이미지 뱅크로 시각 정보 재사용, Qwen3-VL-8B 에이전트 평균 24.9% → 39.0%

홍콩과기대 연구팀이 멀티모달 딥서치 에이전트의 두 가지 병목(중간 시각 증거 재사용 불가, 정적 데이터 생성)을 해결하는 프레임워크 ODE를 제안했습니다. 핵심은 이미지 뱅크 참조 프로토콜로 모든 도구 반환 이미지를 주소 가능한 참조로 등록해 후속 도구가 재사용할 수 있게 한 점과, 정책 롤아웃 피드백으로 데이터 생성기를 반복 개선하는 On-policy Data Evolution입니다. 8개 벤치마크에서 Qwen3-VL-8B를 24.9%에서 39.0%로 끌어올려 Gemini-2.5 Pro(37.9%)를 능가했고, 30B 모델도 30.6%에서 41.5%로 향상시켰습니다. 다만 실험은 Qwen3-VL 계열에 한정되었고, 다른 아키텍처에서의 일반화는 추가 검증이 필요합니다.

  • #multimodal
  • #agent
  • #data-augmentation
  • #qwen
  • #hkust
The Hong Kong University of Science and Technology

Comments

— 첫 댓글을 남겨보세요 —