Papers·3일 전
dots.tts: 2B 파라미터 연속 자기회귀 TTS 기반 모델 — Seed-TTS-Eval WER 0.94% (zh)

dots.tts는 연속 잠재 공간에서 음성을 모델링하는 2B 파라미터 TTS 기반 모델로, Seed-TTS-Eval 벤치마크에서 중국어 WER 0.94%, 음성 유사도 81.0을 기록하며 오픈소스 최고 성능을 달성했습니다. 핵심 혁신은 세 가지: 다중 목표 AudioVAE로 예측에 유리한 연속 공간 구축, flow-matching 헤드에 전체 이력 조건화로 장기 일관성 유지, 보상 없는 자기 교정 후훈련으로 견고성 향상입니다. MeanFlow 증류를 통해 출력 스트리밍 모드에서 첫 패킷 지연 85ms로 저지연 추론이 가능하며, 코드와 사전 훈련된 체크포인트를 Apache 2.0 라이선스로 공개했습니다.
dots.tts는 연속 잠재 공간에서 동작하는 2B 파라미터 TTS 기반 모델로, Seed-TTS-Eval에서 오픈소스 최고 성능을 기록했습니다.
핵심 결론
- 벤치 — Seed-TTS-Eval에서 zh/ko/zh-hard WER 0.94%/1.30%/6.60%, SIM 81.0/77.1/79.5로 평균 최고.
- 규모 — 2B 파라미터, 대규모 다국어 코퍼스로 사전 훈련.
방법
- AudioVAE — 다중 목표로 훈련된 연속 잠재 공간 — 의미 구조를 보존하면서 예측에 유리한 표현을 학습.
- 전체 이력 조건화 — flow-matching 헤드에서 과거 전체를 조건으로 사용해 장기 일관성을 유지하고 생성 드리프트를 줄입니다.
- 자기 교정 후훈련 — 보상 모델 없이 flow-matching 헤드에 자기 교정을 적용해 견고성과 음질을 추가 개선.
- 추론 최적화 — CFG-aware MeanFlow 증류로 출력 스트리밍 첫 패킷 지연 85ms, 이중 스트리밍 54ms.
한계·조건
- 리소스 — 2B 파라미터 모델로 추론에 상당한 GPU 메모리가 필요할 수 있습니다.
- 공개 — 훈련/추론 코드, 사전 훈련/후훈련/증류 체크포인트를 Apache 2.0으로 공개.
편집자 한 줄
연속 자기회귀 TTS에서 전체 이력 조건화와 자기 교정 후훈련의 조합이 인상적입니다. 다만 2B 규모가 실제 서비스에 적합한지는 추가 검토가 필요합니다.
- #tts
- #autoregressive
- #flow-matching
- #audio
- #open-source
Shi Lian