Papers·1개월 전

Morpheus: 터키어 형태소 경계 인식 토크나이저 — 무손실 인코딩 + 단어 임베딩, BPC 1.425

Lonewolf Research & Development 팀이 터키어 형태소 경계를 신경망으로 예측하는 Morpheus를 발표했습니다. 이 모델은 무손실 토크나이저이자 단어 임베딩 생성기로, 역변환 시 원문이 완전히 복원됩니다. 가역 토크나이저 중 최저 BPC(1.425)를 기록했으며, 형태소 정렬 F1 0.61로 서브워드 계열(약 0.32)의 두 배에 가깝습니다. GPU 메모리 사용량도 64K 어휘 서브워드 대비 약 19% 적습니다. 임베더로서 어휘 검색 MAP 0.85, 동일 어근 검증 ROC-AUC 1.00으로 BGE-M3와 BERTurk를 능가했지만, 맥락 의존 태스크에서는 무거운 인코더가 여전히 앞서는 트레이드오프가 있습니다.

터키어는 교착어로 의미가 형태소에 담기지만, 기존 서브워드 토크나이저는 통계적 분할로 접미사를 쪼개고 복원도 불완전합니다. Morpheus는 이 문제를 신경망 형태소 경계 모델로 해결합니다.

핵심 결론

태스크 — 터키어 형태소 인식 토크나이징 및 단어 임베딩 생성.
성능 — 가역 토크나이저 중 최저 BPC 1.425, 형태소 정렬 Macro-F1 0.61 (서브워드 약 0.32 대비).
효율 — 64K 어휘 서브워드 대비 GPU 메모리 약 19% 절감.

방법

Poisson-binomial DP — 문자별 경계 확률을 학습 중에는 소프트 형태소 소속으로, 추론 시에는 정확한 분할로 변환하는 차별화 가능 동적 프로그래밍.
무손실 — 문자 정규화 없이 encode(decode(w)) = w가 보장되어 생성 작업에 적합.
임베딩 통합 — 토크나이징과 동일한 순전파로 구조화된 단어 임베딩을 출력.

한계·조건

트레이드오프 — 어근 중심 임베딩 구조로 인해 NER, 격/수 탐사 등 맥락 의존 태스크에서는 BERTurk 같은 컨텍스트 인코더가 여전히 우위.
코드·모델 — GitHub, Hugging Face 모델, 데모 모두 공개.

편집자 한 줄

터키어 외 다른 교착어(한국어, 핀란드어 등)로의 확장 가능성도 흥미로운 포인트입니다.

#tokenizer
#turkish
#morphology
#embedding
#morpheus

Lonewolf Research & Development

원문 보기 →

Morpheus: 터키어 형태소 경계 인식 토크나이저 — 무손실 인코딩 + 단어 임베딩, BPC 1.425

핵심 결론

방법

한계·조건

Comments