← Back to feed
Papers·3일 전

Praxel, 오픈소스 TTS에 최소한의 개입으로 상용급 음질 달성 — 텔루구어·타밀어·힌디어

Praxel, 오픈소스 TTS에 최소한의 개입으로 상용급 음질 달성 — 텔루구어·타밀어·힌디어

Praxel이 Chatterbox 같은 비인도어 기반 오픈소스 TTS에 LoRA 어댑터와 음성 프롬프트 복구 기법만으로 상용 수준의 인도어 음성을 내는 Praxy Voice를 공개했습니다. Brahmic Unified Phoneme Space(BUPS)로 텔루구·타밀 문자를 로마자화해 기존 Latin 토크나이저가 처리 가능하게 하고, 텍스트 토큰 예측기(t3)만 LoRA 튜닝(약 1,220시간 인도어 음성)했습니다. 힌디어는 LoRA가 오히려 성능을 떨어뜨려 vanilla Chatterbox에 특수 샘플링 설정(Config B)만 적용하는 이중 브랜치 구조입니다. 10발화 평가에서 텔루구어 retroflex collapse 26.7%(Sarvam Bulbul 33.3%), 타밀어 zha collapse 71%(상용 평균 86%), 힌디어 LLM-WER 0.025(Cartesia Sonic-3 동률)로 상용 기준을 따라잡거나 앞섰습니다. 코드 내 혼용 문장은 IndicF5 브랜치를 추가해 WER을 0.14~0.27로 낮췄습니다. LoRA 가중치와 추론 코드는 Apache-2.0/MIT로 공개했습니다.

Praxel

Comments

— 첫 댓글을 남겨보세요 —