Papers·3일 전
LASE: 언어-화자 분리 인코더로 다국어 음성 복제에서 동일 화자 유사도 0.08 향상

다국어 음성 복제에서 동일 화자가 다른 언어로 말할 때 기존 화자 인코더(WavLM-base-plus-sv, ECAPA-TDNN)는 유사도가 0.08~0.1 떨어지며, 특히 서양 악센트 음성을 인도어로 전사할 때 누출이 큽니다. Praxel 팀이 제안한 LASE는 frozen WavLM 위에 gradient-reversal layer로 언어 정보를 제거하는 projection head를 추가해, 서양/인도 악센트 코퍼스에서 유사도 차이를 각각 0.013, 0.026으로 줄였고(95% CI는 0 포함), cross-script margin을 2.4~2.7배 개선했습니다. 단, 8개 상용 다국어 음성으로 합성한 1118쌍으로 학습했으며, 실제 음성 데이터셋에서의 일반화는 추가 검증이 필요합니다.
- #voice-cloning
- #speaker-encoder
- #multilingual
- #gradient-reversal
- #wavlm
Praxel