Papers·1주 전
DocAtlas: 82개 언어 문서 이해 벤치마크 — DPO로 저자원 언어 1.9% 향상

MBZUAI 연구팀이 82개 언어·9개 태스크를 포괄하는 고품질 OCR 데이터셋 및 벤치마크 DocAtlas를 공개했습니다. 핵심은 DOCX 렌더링과 LaTeX 기반 합성으로 주석을 자동 생성하는 파이프라인으로, 저자원 언어에서도 정밀한 구조 정보를 확보합니다. 16개 최신 모델 평가 결과, Direct Preference Optimization(DPO)을 적용한 DocAtlas-DeepSeek 변형이 기존 강력한 기준선 대비 평균 +1.7% 개선했으며, 특히 저자원 언어에서 미세튜닝 대비 성능 저하 없이 안정적인 향상을 보였습니다. 다만 합성 데이터의 실제 문서 분포와의 괴리 가능성은 한계로 남습니다.
- #multilingual
- #document-understanding
- #ocr
- #dpo
- #mbzuai
Mohamed Bin Zayed University of Artificial Intelligence