Papers·1개월 전

dots.tts: 2B 파라미터 연속 자기회귀 TTS 기반 모델 — Seed-TTS-Eval WER 0.94% (zh)

dots.tts는 연속 잠재 공간에서 음성을 모델링하는 2B 파라미터 TTS 기반 모델로, Seed-TTS-Eval 벤치마크에서 중국어 WER 0.94%, 음성 유사도 81.0을 기록하며 오픈소스 최고 성능을 달성했습니다. 핵심 혁신은 세 가지: 다중 목표 AudioVAE로 예측에 유리한 연속 공간 구축, flow-matching 헤드에 전체 이력 조건화로 장기 일관성 유지, 보상 없는 자기 교정 후훈련으로 견고성 향상입니다. MeanFlow 증류를 통해 출력 스트리밍 모드에서 첫 패킷 지연 85ms로 저지연 추론이 가능하며, 코드와 사전 훈련된 체크포인트를 Apache 2.0 라이선스로 공개했습니다.

dots.tts는 연속 잠재 공간에서 동작하는 2B 파라미터 TTS 기반 모델로, Seed-TTS-Eval에서 오픈소스 최고 성능을 기록했습니다.

핵심 결론

벤치 — Seed-TTS-Eval에서 zh/ko/zh-hard WER 0.94%/1.30%/6.60%, SIM 81.0/77.1/79.5로 평균 최고.
규모 — 2B 파라미터, 대규모 다국어 코퍼스로 사전 훈련.

방법

AudioVAE — 다중 목표로 훈련된 연속 잠재 공간 — 의미 구조를 보존하면서 예측에 유리한 표현을 학습.
전체 이력 조건화 — flow-matching 헤드에서 과거 전체를 조건으로 사용해 장기 일관성을 유지하고 생성 드리프트를 줄입니다.
자기 교정 후훈련 — 보상 모델 없이 flow-matching 헤드에 자기 교정을 적용해 견고성과 음질을 추가 개선.
추론 최적화 — CFG-aware MeanFlow 증류로 출력 스트리밍 첫 패킷 지연 85ms, 이중 스트리밍 54ms.

한계·조건

리소스 — 2B 파라미터 모델로 추론에 상당한 GPU 메모리가 필요할 수 있습니다.
공개 — 훈련/추론 코드, 사전 훈련/후훈련/증류 체크포인트를 Apache 2.0으로 공개.

편집자 한 줄

연속 자기회귀 TTS에서 전체 이력 조건화와 자기 교정 후훈련의 조합이 인상적입니다. 다만 2B 규모가 실제 서비스에 적합한지는 추가 검토가 필요합니다.

#tts
#autoregressive
#flow-matching
#audio
#open-source

Shi Lian

원문 보기 →

dots.tts: 2B 파라미터 연속 자기회귀 TTS 기반 모델 — Seed-TTS-Eval WER 0.94% (zh)

핵심 결론

방법

한계·조건

Comments