Papers·6일 전
OpenSTBench: 음성 번역 시스템을 통합 평가하는 다차원 벤치마크

Shanghai Jiao Tong University 팀이 음성-텍스트 번역(S2TT)과 음성-음성 번역(S2ST)을 오프라인 및 스트리밍 설정에서 통합 평가하는 프레임워크 OpenSTBench를 공개했습니다. 번역 품질, 음성 품질, 화자 보존, 감정 및 준언어적 충실도, 시간적 일관성, 지연 시간 등 6개 차원을 하나의 프로토콜로 평가하며, 실험 결과 번역 품질이 높아도 음성 품질과 시간적 품질에서 큰 차이가 날 수 있음을 보여줍니다. 코드와 데이터셋은 GitHub에 공개되었습니다.
Shanghai Jiao Tong University 팀이 음성 번역 시스템을 다차원으로 통합 평가하는 프레임워크 OpenSTBench를 공개했습니다.
핵심 결론
- 통합 평가 — S2TT와 S2ST를 오프라인·스트리밍 모두에서 동일 프로토콜로 평가할 수 있습니다.
- 6개 차원 — 번역 품질, 음성 품질, 화자 보존, 감정·준언어 충실도, 시간적 일관성, 지연 시간을 함께 측정합니다.
- 실험 결과 — 번역 품질이 높아도 음성 품질과 시간적 품질에서 시스템 간 큰 차이가 관찰되었습니다.
방법
- 공유 포맷 — 이종 출력(텍스트, 음성, 타이밍)을 하나의 평가 포맷으로 정규화합니다.
- 평가 지표 — 번역 품질은 BLEU/COMET, 음성 품질은 MOS, 시간적 품질은 지연 시간과 일관성 메트릭을 사용합니다.
- 재현성 — 코드와 데이터셋이 GitHub에 공개되어 있어 누구나 동일 조건에서 비교 가능합니다.
한계·조건
- 데이터 — 현재 지원 언어 쌍은 영어↔중국어, 영어↔스페인어 등 일부로 제한됩니다.
- 환경 — 스트리밍 평가는 특정 지연 시간 설정에 의존하므로 실제 서비스 환경과 차이가 있을 수 있습니다.
편집자 한 줄
음성 번역 시스템의 품질을 단순 번역 정확도만으로 판단하기 어렵다는 점을 실증적으로 보여주는 유용한 프레임워크입니다.
- #speech-translation
- #evaluation
- #benchmark
- #s2tt
- #s2st
Yanjie An