Papers·5일 전
Transformer 기반 필적 형태 분석으로 고문서 필사자 식별 — 프랑스 국립도서관 14세기 사본 160쪽에서 4명 필사자 구분

Ecole des Ponts ParisTech 팀이 필기체 인식에서 형태학적 분석을 가능하게 하는 transformer 기반 아키텍처를 제안했습니다. 핵심은 line-level 전사만으로 문자 프로토타입을 학습하고, 각 문자의 변형·위치를 측정하는 방식입니다. 14세기 프랑스 사본 160쪽 실험에서 필사자 4명의 그래픽 프로파일을 구분하고 미세 변이까지 포착했으며, 단 1열 텍스트만으로도 측정이 가능해 데이터 효율이 높은 점이 특징입니다. 코드와 데이터는 공개되었습니다.
Ecole des Ponts ParisTech 팀이 필기체 인식에 형태학적 분석을 더한 transformer 기반 아키텍처를 공개했습니다.
핵심 결론
- 태스크 — 고문서 필적 형태 분석 — line-level 전사만으로 문자 프로토타입 학습 및 변형·위치 측정.
- 성능 — Learnable Typewriter 대비 문자 바운딩 박스 예측 정확도가 크게 향상되었습니다.
- 실증 — 14세기 프랑스 사본(codex Paris, BnF, fr. 2813) 160쪽에서 4명 필사자 구분 및 미세 변이 분석에 성공.
방법
- 아키텍처 — transformer 기반 detection 모듈 + prototype 기반 line reconstruction 모듈로 구성.
- 학습 — line-level 전사만으로 문자 프로토타입과 각 문자의 발생·변형·위치를 동시에 학습합니다.
- 측정 — 문자·bigram·공백 간 거리 등 paleographic 측정치를 자동 추출합니다.
한계·조건
- 데이터 — 단일 사본(160쪽)에 대한 실증으로, 다양한 필체·언어로의 일반화는 추가 검증이 필요합니다.
- 리소스 — transformer 기반이라 학습에 상당한 compute가 필요할 것으로 보입니다.
- 코드 — 데이터와 코드는 공개되어 재현 가능합니다.
편집자 한 줄
paleography 분야에 딥러닝을 적용한 사례 중에서도 데이터 효율성과 해석 가능성을 동시에 챙긴 점이 인상적입니다.
- #handwritten-text-recognition
- #paleography
- #transformer
- #prototype-learning
- #historical-documents
Ecole des Ponts ParisTech