← Back to feed
Papers·4일 전

Chain of Evidence: 시각적 문서 추론을 위한 iRAG 프레임워크 — Qwen3-VL-8B로 텍스트 기반 대비 20%+ 성능 향상

Chain of Evidence: 시각적 문서 추론을 위한 iRAG 프레임워크 — Qwen3-VL-8B로 텍스트 기반 대비 20%+ 성능 향상

Chain of Evidence(CoE)는 기존 iRAG 시스템이 텍스트 파싱에 의존해 시각적 레이아웃 정보를 잃는 문제를 해결합니다. Vision-Language Model로 문서 스크린샷을 직접 추론해 바운딩 박스 단위 증거를 제공하며, Wiki-CoE와 SlideVQA 벤치마크에서 텍스트 기반 베이스라인을 크게 상회했습니다. 단, 8B 모델 기준이라 대규모 배포 시 GPU 메모리가 추가로 필요할 수 있습니다.

Peiyang Liu

Comments

— 첫 댓글을 남겨보세요 —