Papers·1개월 전

서브워드 토크나이저의 진짜 역할: 바이트 수준 학습에서 throughput 과 경계 prior 가 핵심

NousResearch 팀이 서브워드 토크나이저가 LLM 학습에 기여하는 요인을 바이트 수준 파이프라인에서 분리해 분석했습니다. 실험 결과, 서브워드 모델이 바이트 모델보다 나은 이유는 처리량(throughput) 증가와 서브워드 경계를 명시적 prior 또는 귀납적 편향으로 통합하는 점이 결정적임을 밝혔습니다. 다만 바이트 수준 실험 환경에서의 시뮬레이션이므로 실제 서브워드 모델과의 차이가 있을 수 있습니다.

#tokenization
#subword
#byte-level
#efficiency
#nousresearch

NousResearch

원문 보기 →

서브워드 토크나이저의 진짜 역할: 바이트 수준 학습에서 throughput 과 경계 prior 가 핵심

Comments