Papers·1개월 전

Agentic ASR — SJTU, 단일-패스 음성인식을 다중-턴 대화형 정제로 전환, S²ER 40% 개선

SJTU 팀이 기존 단일-패스 ASR을 다중-턴 대화형 정제 프레임워크로 확장한 Agentic ASR을 공개했습니다. 의미 오류 수정을 위해 semantic correction, intent routing, reasoning-based editing 모듈을 추가하고, LLM 기반 문장-수준 의미 오류율(S²ER) 평가 지표를 도입했습니다. 다국어·고유명사·코드스위칭 벤치마크에서 S²ER 기준 최대 40% 개선을 보였지만, 단일-패스 대비 latency 증가와 LLM 의존성은 한계로 남습니다.

SJTU Cross Media Language Intelligence Lab이 단일-패스 ASR의 의미 오류를 다중-턴 대화형 정제로 해결하는 Agentic ASR 프레임워크를 제안했습니다.

핵심 결론

벤치 — 다국어·고유명사·코드스위칭 데이터셋에서 S²ER 기준 30~40% 개선, WER은 5~10% 개선에 그쳐 기존 지표의 한계를 드러냄.
평가 — 인간-LLM 정렬 실험에서 semantic judge의 신뢰도 92%로 검증됨.

방법

프레임워크 — 단일-패스 ASR 출력을 semantic correction, intent routing, reasoning-based editing 모듈이 순차적으로 정제하는 closed-loop 구조.
S²ER — LLM이 문장 단위로 의미 오류 여부를 판단하는 새로운 평가 지표 — 기존 WER/CER이 잡지 못하는 의미-중요 오류를 포착.
대화형 시뮬레이션 시스템을 구축해 확장 가능하고 재현 가능한 벤치마킹을 지원합니다.

한계·조건

지연 — 다중-턴 정제 과정에서 단일-패스 대비 평균 1.2초 추가 latency 발생.
의존성 — LLM 기반 semantic judge와 editing 모듈의 성능이 backbone LLM에 크게 의존 — 작은 모델에서는 효과 감소.
공개 — 코드와 데모 모두 공개 (GitHub, live demo).

편집자 한 줄

의미 오류에 집중한 평가 지표 S²ER의 도입 자체가 흥미로운 포인트입니다. 다만 실시간 서비스에 적용하려면 latency 최적화가 추가로 필요해 보입니다.

#asr
#interactive
#llm
#sjtulab
#semantic-error

SJTU Cross Media Language Intelligence Lab

원문 보기 →

Agentic ASR — SJTU, 단일-패스 음성인식을 다중-턴 대화형 정제로 전환, S²ER 40% 개선

핵심 결론

방법

한계·조건

Comments