Papers·1개월 전

Chain of Evidence: 시각적 문서 추론을 위한 iRAG 프레임워크 — Qwen3-VL-8B로 텍스트 기반 대비 20%+ 성능 향상

Chain of Evidence(CoE)는 기존 iRAG 시스템이 텍스트 파싱에 의존해 시각적 레이아웃 정보를 잃는 문제를 해결합니다. Vision-Language Model로 문서 스크린샷을 직접 추론해 바운딩 박스 단위 증거를 제공하며, Wiki-CoE와 SlideVQA 벤치마크에서 텍스트 기반 베이스라인을 크게 상회했습니다. 단, 8B 모델 기준이라 대규모 배포 시 GPU 메모리가 추가로 필요할 수 있습니다.

#rag
#vision-language
#multimodal
#qwen
#document-understanding

Peiyang Liu

원문 보기 →

Chain of Evidence: 시각적 문서 추론을 위한 iRAG 프레임워크 — Qwen3-VL-8B로 텍스트 기반 대비 20%+ 성능 향상

Comments