Papers·1개월 전

Stable Audio 3 — 가변 길이 오디오 생성·편집을 위한 잠재 확산 모델 제품군

Stability AI가 가변 길이 오디오 생성과 편집을 지원하는 잠재 확산 모델 제품군 Stable Audio 3(small/medium/large)을 공개했습니다. semantic-acoustic autoencoder로 오디오를 압축된 잠재 공간에 투영해 효율적인 확산 기반 생성을 가능하게 했으며, 적대적 후퇴련(adversarial post-training)으로 추론 스텝을 줄이면서도 충실도와 프롬프트 정합성을 개선했습니다. small과 medium 모델의 가중치와 학습/추론 파이프라인이 공개되어 컨슈머 하드웨어에서도 구동 가능합니다.

#audio-generation
#latent-diffusion
#stability-ai
#open-source

Stability AI

원문 보기 →

Stable Audio 3 — 가변 길이 오디오 생성·편집을 위한 잠재 확산 모델 제품군

Comments