Papers·어제
OpenSearch-VL: Tencent Hunyuan, 멀티모달 딥 서치 에이전트를 위한 완전 오픈소스 레시피 — 7개 벤치마크 평균 10점 이상 개선

Tencent Hunyuan 팀이 멀티모달 딥 서치 에이전트를 위한 완전 오픈소스 레시피 OpenSearch-VL을 공개했습니다. Wikipedia 경로 샘플링, 퍼지 엔터티 재작성, 소스-앵커 시각적 그라운딩으로 구성된 파이프라인으로 고품질 학습 데이터를 구축하고, 텍스트/이미지 검색, OCR, 이미지 보정 등 다양한 도구 환경을 통합했습니다. 특히 다중 턴 치명적 오류 인지 GRPO 알고리즘을 제안해, 체인 상의 도구 실패를 마스킹하고 사전-실패 추론을 보존하는 방식으로 학습 안정성을 높였습니다. 7개 벤치마크에서 평균 10점 이상 개선되었으며, 일부 태스크에서 상용 모델과 비슷한 성능을 냈습니다. 모든 데이터, 코드, 모델을 공개할 예정입니다.
- #multimodal
- #deep-search
- #agent
- #open-source
- #tencent
Tencent Hunyuan