Papers·1개월 전

WavFlow: raw waveform 직접 생성하는 오디오 프레임워크 — VGGSound, AudioCaps에서 latent 기법과 동등 성능

Meta Research가 raw waveform을 직접 생성하는 오디오 생성 프레임워크 WavFlow를 공개했습니다. 기존 latent-space 압축 없이 waveform patchify와 amplitude lifting으로 고차원 신호를 안정적으로 학습하며, 500만 개의 비디오-텍스트-오디오 triplet을 활용해 의미 정렬과 시간 동기화를 학습합니다. VGGSound (FD_PaSST: 59.98)와 AudioCaps (FD_PANNs: 10.63)에서 latent 기반 방법과 비슷하거나 더 나은 성능을 보였지만, 500만 쌍 데이터셋 구축 비용과 재현성은 확인이 필요합니다.

#audio-generation
#flow-matching
#meta
#wavflow
#raw-waveform

Meta Research

원문 보기 →

WavFlow: raw waveform 직접 생성하는 오디오 프레임워크 — VGGSound, AudioCaps에서 latent 기법과 동등 성능

Comments