Papers·2일 전
일본 정부 백서로 구축한 차트·표 VQA 벤치마크 HakushoBench — 오픈 모델 최고 58.6%

LLM-jp 팀이 일본 정부 백서 33종에서 수집한 차트·표 이미지 2,053장으로 구성된 VQA 벤치마크 HakushoBench를 공개했습니다. 10종 이상의 이미지 유형을 포함하며, 오픈웨이트 모델 최고 성능은 58.6%로, 폐쇄형 모델과 34.9점 차이가 나 여전히 어려운 과제임을 보여줍니다. 데이터셋과 코드는 공개되었습니다.
일본 정부 백서를 활용해 차트·표 이해를 평가하는 VQA 벤치마크 HakushoBench가 공개됐습니다.
핵심 결론
- 벤치 — HakushoBench는 일본어 차트·표 VQA 벤치마크로, 33개 백서에서 추출한 2,053장 이미지와 수동 QA 쌍으로 구성됩니다.
- 성능 — 오픈웨이트 모델 최고 58.6%, 폐쇄형 모델과 34.9점 차이로 아직 큰 격차가 있습니다.
방법
- 데이터 수집 — 일본 정부 백서를 소스로 사용해 자연스러운 차트·표 이미지를 확보했습니다. 10종 이상의 이미지 유형을 포함합니다.
- QA 설계 — 단순 시각적 단서가 아닌, 깊고 전체적인 이해를 평가하도록 수동으로 QA 쌍을 주석했습니다.
한계·조건
- 언어 — 일본어 전용 벤치마크로, 다른 언어로의 일반화는 추가 검증이 필요합니다.
- 공개 — 데이터셋과 코드는 공개되었으나, 오픈웨이트 모델의 성능이 낮아 추가 연구가 필요합니다.
편집자 한 줄
백서를 활용한 접근은 비영어권 벤치마크 구축에 좋은 템플릿이 될 만합니다.
- #vqa
- #benchmark
- #charts
- #japanese
- #llm-jp
LLM-jp