Papers·4일 전
Chain of Evidence: 시각적 문서 추론을 위한 iRAG 프레임워크 — Qwen3-VL-8B로 텍스트 기반 대비 20%+ 성능 향상

Chain of Evidence(CoE)는 기존 iRAG 시스템이 텍스트 파싱에 의존해 시각적 레이아웃 정보를 잃는 문제를 해결합니다. Vision-Language Model로 문서 스크린샷을 직접 추론해 바운딩 박스 단위 증거를 제공하며, Wiki-CoE와 SlideVQA 벤치마크에서 텍스트 기반 베이스라인을 크게 상회했습니다. 단, 8B 모델 기준이라 대규모 배포 시 GPU 메모리가 추가로 필요할 수 있습니다.
- #rag
- #vision-language
- #multimodal
- #qwen
- #document-understanding
Peiyang Liu