← Back to feed
Papers·2일 전

일본 정부 백서로 구축한 차트·표 VQA 벤치마크 HakushoBench — 오픈 모델 최고 58.6%

일본 정부 백서로 구축한 차트·표 VQA 벤치마크 HakushoBench — 오픈 모델 최고 58.6%

LLM-jp 팀이 일본 정부 백서 33종에서 수집한 차트·표 이미지 2,053장으로 구성된 VQA 벤치마크 HakushoBench를 공개했습니다. 10종 이상의 이미지 유형을 포함하며, 오픈웨이트 모델 최고 성능은 58.6%로, 폐쇄형 모델과 34.9점 차이가 나 여전히 어려운 과제임을 보여줍니다. 데이터셋과 코드는 공개되었습니다.

일본 정부 백서를 활용해 차트·표 이해를 평가하는 VQA 벤치마크 HakushoBench가 공개됐습니다.

핵심 결론

  • 벤치HakushoBench는 일본어 차트·표 VQA 벤치마크로, 33개 백서에서 추출한 2,053장 이미지와 수동 QA 쌍으로 구성됩니다.
  • 성능오픈웨이트 모델 최고 58.6%, 폐쇄형 모델과 34.9점 차이로 아직 큰 격차가 있습니다.

방법

  • 데이터 수집일본 정부 백서를 소스로 사용해 자연스러운 차트·표 이미지를 확보했습니다. 10종 이상의 이미지 유형을 포함합니다.
  • QA 설계단순 시각적 단서가 아닌, 깊고 전체적인 이해를 평가하도록 수동으로 QA 쌍을 주석했습니다.

한계·조건

  • 언어일본어 전용 벤치마크로, 다른 언어로의 일반화는 추가 검증이 필요합니다.
  • 공개데이터셋과 코드는 공개되었으나, 오픈웨이트 모델의 성능이 낮아 추가 연구가 필요합니다.

편집자 한 줄

백서를 활용한 접근은 비영어권 벤치마크 구축에 좋은 템플릿이 될 만합니다.

  • #vqa
  • #benchmark
  • #charts
  • #japanese
  • #llm-jp
LLM-jp
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —