Ships·2주 전
Hugging Face, 27,000개 논문 OCR 처리 — Codex·Jobs로 Markdown 변환

Hugging Face 가 arXiv 논문 27,000건을 OCR 로 Markdown 변환했다. 기존 HTML 미지원 논문에 대해 open OCR 모델과 Codex, Jobs 를 활용했으며, 변환된 Markdown 은 HuggingChat 기반 논문 채팅 기능에 사용된다. 모든 논문 페이지에서 채팅 기능을 제공하나, 변환 품질은 논문 형식에 따라 달라질 수 있다.
- #hugging-face
- #ocr
- #papers
- #huggingchat
- #arxiv
Hugging Face