Papers·2일 전
Step-Audio-R1.5: RLVR가 오디오 모델의 자연스러움을 해친다는 문제 제기와 RLHF로의 전환

StepFun이 대규모 오디오 언어 모델에서 Chain-of-Thought 추론을 위해 널리 쓰이는 Reinforcement Learning with Verified Rewards(RLVR) 방식이 오디오의 연속적·감각적 특성을 무시하고 단순한 텍스트 레이블 맞추기에 집중하게 만든다는 'verifiable reward trap' 문제를 지적합니다. RLVR은 객관적 벤치마크 점수는 높이지만, 운율·감정적 연속성·사용자 몰입도를 떨어뜨려 마치 '자동 응답기' 같은 상호작용을 만든다고 주장합니다. 이에 대한 대안으로 RLHF 기반의 Step-Audio-R1.5를 제안하며, 분석적 추론 성능을 유지하면서도 장시간 대화에서 훨씬 자연스러운 음성 상호작용을 구현했다고 합니다. 다만 RLHF 학습에 필요한 인간 피드백 수집 비용과 확장성에 대한 구체적인 논의는 부족한 편입니다.
- #audio-language-model
- #rlhf
- #rlvr
- #stepfun
- #chain-of-thought
StepFun