← Back to feed
Papers·2일 전

CosyVoice3 SAE 분석 — 음성 합성에서 feature steering 으로 웃음·성별·속도 제어

CosyVoice3 SAE 분석 — 음성 합성에서 feature steering 으로 웃음·성별·속도 제어

T-Tech 연구팀이 CosyVoice3의 언어 모델 백본에서 BatchTopK sparse autoencoder로 해석 가능한 feature를 추출하고, 이를 조정해 웃음 확률 0.02→0.79, 성별 전환, 발화 속도 제어를 달성했습니다. feature가 단순한 상관이 아니라 인과적 제어 방향임을 보인 점이 핵심입니다.

CosyVoice3의 LM 백본에서 SAE feature를 뽑아 음성 합성의 음소·웃음·악센트·성별을 제어할 수 있음을 보였습니다.

핵심 결론

  • 태스크TTS 백본 LM에서 SAE feature 추출 및 steering.
  • 수치웃음 확률 0.02→0.79, 성별 전환 성공, 발화 속도 제어 가능.
  • feature가 단순 기술이 아닌 인과적 제어 방향임을 입증했습니다.

방법

  • SAECosyVoice3의 LM backbone에 BatchTopK sparse autoencoder를 학습.
  • 모달리티 인식feature가 텍스트 맥락, 음성 클립, 또는 둘 다에서 발화하는지 자동 레이블링하는 auto-interp 파이프라인을 도입.
  • 복원된 feature는 음소, 웃음, 악센트, 화자 성별 등으로 해석 가능했습니다.

한계·조건

  • 모델CosyVoice3 단일 모델 기준 — 다른 TTS LM으로 일반화 여부는 미확인.
  • 코드코드 공개 여부는 논문에 명시되지 않았습니다.
  • steering 강도에 따라 음질 저하 가능성은 논의되지 않았습니다.

편집자 한 줄

SAE가 TTS 도메인에서도 인과적 제어 도구로 쓸모 있음을 보여준 깔끔한 사례입니다.

  • #sparse-autoencoders
  • #interpretability
  • #tts
  • #cosyvoice
  • #steering
T-Tech
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —