Papers·1주 전
Agentic ASR — SJTU, 단일-패스 음성인식을 다중-턴 대화형 정제로 전환, S²ER 40% 개선

SJTU 팀이 기존 단일-패스 ASR을 다중-턴 대화형 정제 프레임워크로 확장한 Agentic ASR을 공개했습니다. 의미 오류 수정을 위해 semantic correction, intent routing, reasoning-based editing 모듈을 추가하고, LLM 기반 문장-수준 의미 오류율(S²ER) 평가 지표를 도입했습니다. 다국어·고유명사·코드스위칭 벤치마크에서 S²ER 기준 최대 40% 개선을 보였지만, 단일-패스 대비 latency 증가와 LLM 의존성은 한계로 남습니다.
SJTU Cross Media Language Intelligence Lab이 단일-패스 ASR의 의미 오류를 다중-턴 대화형 정제로 해결하는 Agentic ASR 프레임워크를 제안했습니다.
핵심 결론
- 벤치 — 다국어·고유명사·코드스위칭 데이터셋에서 S²ER 기준 30~40% 개선, WER은 5~10% 개선에 그쳐 기존 지표의 한계를 드러냄.
- 평가 — 인간-LLM 정렬 실험에서 semantic judge의 신뢰도 92%로 검증됨.
방법
- 프레임워크 — 단일-패스 ASR 출력을 semantic correction, intent routing, reasoning-based editing 모듈이 순차적으로 정제하는 closed-loop 구조.
- S²ER — LLM이 문장 단위로 의미 오류 여부를 판단하는 새로운 평가 지표 — 기존 WER/CER이 잡지 못하는 의미-중요 오류를 포착.
- 대화형 시뮬레이션 시스템을 구축해 확장 가능하고 재현 가능한 벤치마킹을 지원합니다.
한계·조건
- 지연 — 다중-턴 정제 과정에서 단일-패스 대비 평균 1.2초 추가 latency 발생.
- 의존성 — LLM 기반 semantic judge와 editing 모듈의 성능이 backbone LLM에 크게 의존 — 작은 모델에서는 효과 감소.
- 공개 — 코드와 데모 모두 공개 (GitHub, live demo).
편집자 한 줄
의미 오류에 집중한 평가 지표 S²ER의 도입 자체가 흥미로운 포인트입니다. 다만 실시간 서비스에 적용하려면 latency 최적화가 추가로 필요해 보입니다.
- #asr
- #interactive
- #llm
- #sjtulab
- #semantic-error
SJTU Cross Media Language Intelligence Lab