Papers·1주 전
Modality-aware RL post-training improves spoken dialogue — semantic + acoustic gains across benchmarks

중국 연구진이 음성 대화 모델에 온라인 강화학습을 적용할 때의 장애물을 분석하고, 선호도 업데이트를 의미 채널로 제한하고 명시적 앵커링으로 음향 행동을 개선하는 양식 인식 적응형 포스트트레이닝 레시피를 제안했다. 여러 음성 대화 벤치마크와 대표 아키텍처에서 의미 품질과 음성 표현력이 일관되게 향상되었다. 단, 이 방법은 rollout 통계에 의존해 선호도 그레이디언트의 신뢰도를 동적으로 조절하므로, rollout 샘플링 비용이 추가로 발생한다.
- #spoken-dialogue
- #reinforcement-learning
- #preference-optimization
- #modality-aware
- #post-training
Yifu Chen