Papers·1개월 전

라틴어에서 로망스어로의 성별 체계 재구조화 — 해석 가능한 딥러닝 분석

뮌헨 루트비히 막시밀리안 대학교 연구팀이 라틴어에서 로망스어로의 문법적 성별 체계 변화(3성→2성)를 해석 가능한 딥러닝 프레임워크로 분석했습니다. 기존 토크나이저가 저자원 역사 텍스트에 취약함을 보이고, 새로운 토크나이저로 성능을 개선했습니다. 어휘 수준에서는 형태적 특징이, 문맥 수준에서는 품사 범주가 성별 예측에 기여하는 정도를 정량화했습니다. 코드와 데이터셋은 공개되었습니다.

라틴어에서 로망스어로 넘어가면서 문법적 성별 체계가 3성(남성·여성·중성)에서 2성(남성·여성)으로 재구조화된 과정을 해석 가능한 딥러닝으로 분석한 연구입니다.

핵심 결론

태스크 — 라틴어 및 초기 로망스어 텍스트에서 문법적 성별 예측 — 어휘 수준과 문맥 수준 모두 평가.
기여 — 기존 토크나이저 대비 제안된 토크나이저가 저자원 역사 설정에서 더 강건함을 입증.
분석 — 형태적 특징(어미 등)이 성별 예측에 가장 큰 영향을 미치며, 품사 범주 중에서는 명사와 형용사가 주요 역할을 함.

방법

토크나이저 — 기존 BPE 기반 토크나이저는 변형이 심한 역사 텍스트에서 불안정 — 연구팀은 형태소 경계를 보존하는 새로운 토크나이저를 설계.
모델 — 해석 가능한 딥러닝 프레임워크로, 어휘 수준에서는 형태적 feature importance, 문맥 수준에서는 attention 기반 품사 기여도를 측정.
데이터 — 라틴어-로망스어 병렬 코퍼스와 주석 데이터를 구축하여 공개.

한계·조건

범위 — 분석 대상은 라틴어와 초기 로망스어(이탈리아어, 스페인어, 프랑스어 조상)에 한정.
재현성 — 코드와 데이터셋은 GitHub에 공개되어 재현 가능.
리소스 — 저자원 언어 특성상 데이터 규모가 작아 일반화에 주의 필요.

편집자 한 줄

역사 언어학에 딥러닝 해석 기법을 적용한 점이 흥미롭습니다. 토크나이저 설계가 저자원 설정에서의 실용적 교훈을 줍니다.

#grammatical-gender
#historical-linguistics
#interpretability
#low-resource
#tokenization

Ludwig Maximilian University of Munich

원문 보기 →

라틴어에서 로망스어로의 성별 체계 재구조화 — 해석 가능한 딥러닝 분석

핵심 결론

방법

한계·조건

Comments