Papers·1개월 전

Mega-ASR: 복합 잡음 환경에서 WER 30% 개선한 통합 음성 인식 프레임워크

NUS 팀이 실제 환경 음성 인식의 견고성 문제를 해결하기 위해 Mega-ASR을 제안했습니다. Voices-in-the-Wild-2M 데이터셋(7가지 음향 현상, 54가지 복합 시나리오)과 점진적 음향-의미 최적화(AS-PSFT, DGWPGPO)를 통해 VOiCES R4-B-F에서 45.69% WER(기존 54.01%), NOIZEUS Sta-0에서 21.49% WER(기존 29.34%)를 달성했습니다. 복합 잡음 환경에서도 강력한 오픈소스/클로즈드소스 대비 30% 이상의 상대적 WER 감소를 보였으나, 학습 데이터 규모와 계산 비용이 상당하다는 점은 감안해야 합니다.

#asr
#robustness
#noise
#nus

National University of Singapore

원문 보기 →

Mega-ASR: 복합 잡음 환경에서 WER 30% 개선한 통합 음성 인식 프레임워크

Comments