Papers·1개월 전

화웨이, Whisper 환각 탐지 및 SAE 기반 조정으로 환각률 72.63%→14.11%

화웨이 Noah's Ark Lab이 Whisper ASR 모델의 내부 표현을 분석해 환각(hallucination)을 탐지하고 SAE(Sparse AutoEncoder) 잠재 공간에서 조정(steering)하는 방법을 제안했습니다. 비음성 오디오 전체 테스트셋에서 Whisper small의 환각률을 72.63%에서 14.11%로, large-v3는 86.88%에서 27.33%로 낮췄으며, 음성 데이터에 대한 WER 저하는 미미해 파인튜닝 기반 방법에 근접한 성능을 냅니다. SAE 기반 조정이 활성화 공간 조정보다 더 효과적이며, 깊은 인코더 층일수록 환각 관련 정보가 집중된다는 점이 흥미롭습니다.

화웨이 Noah's Ark Lab이 Whisper ASR 모델의 환각을 내부 표현 분석과 SAE 기반 조정으로 효과적으로 줄이는 방법을 제안했습니다.

핵심 결론

환각률 감소 — Whisper small: 72.63%→14.11%, large-v3: 86.88%→27.33% (비음성 전체 테스트셋).
음성 성능 — LibriSpeech clean/other WER 각각 0.1%p 이하 증가, 파인튜닝 기반 대비 유사.

방법

내부 표현 분석 — Whisper 인코더 활성화와 SAE 잠재 벡터 모두에서 환각 관련 정보가 선형 분리 가능함을 확인.
조정 전략 — 활성화 공간 조정(activation steering)과 SAE 잠재 공간 조정 두 가지 제안. SAE 기반이 더 효과적.
특성 집중 — 환각 정보는 희소한 특성 부분집합에 집중되며, 깊은 인코더 층일수록 판별력 증가.

한계·조건

테스트셋 — 비음성 오디오(무음, 음악, 잡음 등)에 한정, 다양한 환각 유형에 대한 일반화는 추가 검증 필요.
코드 공개 — 현재 논문만 공개, 코드 및 모델 가중치 미공개.

편집자 한 줄

SAE 기반 조정이 파인튜닝 없이도 환각을 크게 줄인 점은 실용적이지만, 다양한 도메인에서의 안정성은 추가 확인이 필요해 보입니다.

#whisper
#hallucination
#sae
#asr
#huawei

HUAWEI Noah's Ark Lab

원문 보기 →

화웨이, Whisper 환각 탐지 및 SAE 기반 조정으로 환각률 72.63%→14.11%

핵심 결론

방법

한계·조건

Comments