Papers·2개월 전

WildTableBench: 실제 환경 표 이미지 QA 벤치마크 — 최고 모델도 50% 미만 정확도

UQ(University of Queensland) 팀이 실제 환경에서 수집한 표 이미지 QA 벤치마크 WildTableBench를 공개했습니다. 402개의 고밀도 표 이미지와 928개의 수동 검증 질문으로 구성되며, 21개 멀티모달 모델 중 단 하나만 50%를 넘겼고 나머지는 4.1~49.9%에 그쳤습니다. 구조 인식과 수치 추론에서 지속적인 약점이 확인되었으며, 기존 벤치마크가 간과한 실제 표 이미지의 시각적 복잡성을 반영한 점이 특징입니다.

#multimodal
#benchmark
#table-understanding
#queensland

The University of Queensland

원문 보기 →

WildTableBench: 실제 환경 표 이미지 QA 벤치마크 — 최고 모델도 50% 미만 정확도

Comments