Papers·2일 전
CosyVoice3 SAE 분석 — 음성 합성에서 feature steering 으로 웃음·성별·속도 제어

T-Tech 연구팀이 CosyVoice3의 언어 모델 백본에서 BatchTopK sparse autoencoder로 해석 가능한 feature를 추출하고, 이를 조정해 웃음 확률 0.02→0.79, 성별 전환, 발화 속도 제어를 달성했습니다. feature가 단순한 상관이 아니라 인과적 제어 방향임을 보인 점이 핵심입니다.
CosyVoice3의 LM 백본에서 SAE feature를 뽑아 음성 합성의 음소·웃음·악센트·성별을 제어할 수 있음을 보였습니다.
핵심 결론
- 태스크 — TTS 백본 LM에서 SAE feature 추출 및 steering.
- 수치 — 웃음 확률 0.02→0.79, 성별 전환 성공, 발화 속도 제어 가능.
- feature가 단순 기술이 아닌 인과적 제어 방향임을 입증했습니다.
방법
- SAE — CosyVoice3의 LM backbone에 BatchTopK sparse autoencoder를 학습.
- 모달리티 인식 — feature가 텍스트 맥락, 음성 클립, 또는 둘 다에서 발화하는지 자동 레이블링하는 auto-interp 파이프라인을 도입.
- 복원된 feature는 음소, 웃음, 악센트, 화자 성별 등으로 해석 가능했습니다.
한계·조건
- 모델 — CosyVoice3 단일 모델 기준 — 다른 TTS LM으로 일반화 여부는 미확인.
- 코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
- steering 강도에 따라 음질 저하 가능성은 논의되지 않았습니다.
편집자 한 줄
SAE가 TTS 도메인에서도 인과적 제어 도구로 쓸모 있음을 보여준 깔끔한 사례입니다.
- #sparse-autoencoders
- #interpretability
- #tts
- #cosyvoice
- #steering
T-Tech