Papers·1개월 전

CosyVoice3 SAE 분석 — 음성 합성에서 feature steering 으로 웃음·성별·속도 제어

T-Tech 연구팀이 CosyVoice3의 언어 모델 백본에서 BatchTopK sparse autoencoder로 해석 가능한 feature를 추출하고, 이를 조정해 웃음 확률 0.02→0.79, 성별 전환, 발화 속도 제어를 달성했습니다. feature가 단순한 상관이 아니라 인과적 제어 방향임을 보인 점이 핵심입니다.

CosyVoice3의 LM 백본에서 SAE feature를 뽑아 음성 합성의 음소·웃음·악센트·성별을 제어할 수 있음을 보였습니다.

핵심 결론

태스크 — TTS 백본 LM에서 SAE feature 추출 및 steering.
수치 — 웃음 확률 0.02→0.79, 성별 전환 성공, 발화 속도 제어 가능.
feature가 단순 기술이 아닌 인과적 제어 방향임을 입증했습니다.

방법

SAE — CosyVoice3의 LM backbone에 BatchTopK sparse autoencoder를 학습.
모달리티 인식 — feature가 텍스트 맥락, 음성 클립, 또는 둘 다에서 발화하는지 자동 레이블링하는 auto-interp 파이프라인을 도입.
복원된 feature는 음소, 웃음, 악센트, 화자 성별 등으로 해석 가능했습니다.

한계·조건

모델 — CosyVoice3 단일 모델 기준 — 다른 TTS LM으로 일반화 여부는 미확인.
코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
steering 강도에 따라 음질 저하 가능성은 논의되지 않았습니다.

편집자 한 줄

SAE가 TTS 도메인에서도 인과적 제어 도구로 쓸모 있음을 보여준 깔끔한 사례입니다.

#sparse-autoencoders
#interpretability
#tts
#cosyvoice
#steering

T-Tech

원문 보기 →

CosyVoice3 SAE 분석 — 음성 합성에서 feature steering 으로 웃음·성별·속도 제어

핵심 결론

방법

한계·조건

Comments