Papers·1개월 전

StepAudio 2.5, 음성 인식·합성·실시간 대화를 하나의 모델로 — RLHF 기반 정렬로 각 태스크 SOTA

StepAudio 2.5는 ASR, TTS, 실시간 음성 대화 세 가지 태스크에서 각각의 전문 모델과 동등하거나 더 나은 성능을 내는 통합 오디오-언어 기반 모델입니다. 텍스트와 오디오가 공유된 멀티모달 표현 공간에 있으면 태스크 차이는 데이터 구성, 최적화 목표, 디코딩 제약의 차이일 뿐이라는 통찰 아래, 표준 지도 학습 대신 태스크별 RLHF를 정렬 수단으로 사용합니다. ASR은 검증 가능한 멀티토큰 디코딩으로 효율을 높이고, TTS는 선호 기반 RLHF와 맥락 풍부한 지도로 제어 가능한 합성을, 실시간 대화는 생성적 보상 모델링을 통한 RLHF로 낮은 지연 시간과 일관된 페르소나를 구현했습니다. 다만 RLHF 파이프라인 구축 비용이 크다는 점과, 벤치마크별로 하이퍼파라미터 튜닝이 필요할 가능성은 염두에 둘 만합니다.

#asr
#tts
#rlhf
#audio-language-model
#stepaudio

Bin Lin

원문 보기 →

StepAudio 2.5, 음성 인식·합성·실시간 대화를 하나의 모델로 — RLHF 기반 정렬로 각 태스크 SOTA

Comments