Papers·1주 전
CiteVQA: 문서 이해 MLLM 평가, 정답과 근거 인용을 함께 측정 — Gemini-3.1-Pro-Preview SAA 76.0, 오픈소스 최고 22.5

OpenDataLab이 문서 이해 MLLM의 정답과 근거 인용을 동시에 평가하는 벤치마크 CiteVQA를 공개했습니다. 1,897개 질문, 711개 PDF, 7개 도메인, 2개 언어로 구성되며, 정답과 바운딩박스 인용이 모두 맞아야 점수를 주는 Strict Attributed Accuracy(SAA)를 도입했습니다. 20개 MLLM을 평가한 결과, 정답은 맞지만 엉뚱한 영역을 인용하는 'Attribution Hallucination'이 만연했으며, 최고 성능 모델(Gemini-3.1-Pro-Preview)의 SAA는 76.0, 오픈소스 최고는 22.5에 그쳤습니다. 코드와 데이터는 GitHub에 공개되었습니다.
- #multimodal
- #document-understanding
- #mllm
- #evaluation
- #opendatalab
OpenDataLab