Papers·3일 전
TTS→STT 플라이휠로 Indic 엔티티 ASR 17배 개선 — Telugu EHR 0.027→0.473

오픈소스 Telugu ASR의 엔티티 인식률(EHR)이 0.027에 불과한 문제를, TTS로 엔티티 밀집 합성 데이터(~22,000 발화, $50 미만)를 만들어 LoRA fine-tuning으로 0.473까지 끌어올렸습니다(오픈 SOTA 대비 17배, 상용 Deepgram Nova-3 대비 3배). 핵심은 합성 데이터만으로도 실제 음성으로 전이 가능하다는 점(네이티브 테스트 EHR 0.516)과, Telugu에서 Whisper-large-v3의 Script Collapse를 LoRA로 교정한 점입니다. 다만 Hindi에서는 상용 대비 열위, 모든 언어에서 사전 등록 목표(EHR 0.65~0.75)에 미달했으며, 코드와 데이터는 전면 공개되었습니다.
- #asr
- #indic-languages
- #tts
- #whisper
- #lora
Praxel