← Back to feed
Papers·5일 전

화웨이, Whisper 환각 탐지 및 SAE 기반 조정으로 환각률 72.63%→14.11%

화웨이, Whisper 환각 탐지 및 SAE 기반 조정으로 환각률 72.63%→14.11%

화웨이 Noah's Ark Lab이 Whisper ASR 모델의 내부 표현을 분석해 환각(hallucination)을 탐지하고 SAE(Sparse AutoEncoder) 잠재 공간에서 조정(steering)하는 방법을 제안했습니다. 비음성 오디오 전체 테스트셋에서 Whisper small의 환각률을 72.63%에서 14.11%로, large-v3는 86.88%에서 27.33%로 낮췄으며, 음성 데이터에 대한 WER 저하는 미미해 파인튜닝 기반 방법에 근접한 성능을 냅니다. SAE 기반 조정이 활성화 공간 조정보다 더 효과적이며, 깊은 인코더 층일수록 환각 관련 정보가 집중된다는 점이 흥미롭습니다.

화웨이 Noah's Ark Lab이 Whisper ASR 모델의 환각을 내부 표현 분석과 SAE 기반 조정으로 효과적으로 줄이는 방법을 제안했습니다.

핵심 결론

  • 환각률 감소Whisper small: 72.63%→14.11%, large-v3: 86.88%→27.33% (비음성 전체 테스트셋).
  • 음성 성능LibriSpeech clean/other WER 각각 0.1%p 이하 증가, 파인튜닝 기반 대비 유사.

방법

  • 내부 표현 분석Whisper 인코더 활성화와 SAE 잠재 벡터 모두에서 환각 관련 정보가 선형 분리 가능함을 확인.
  • 조정 전략활성화 공간 조정(activation steering)과 SAE 잠재 공간 조정 두 가지 제안. SAE 기반이 더 효과적.
  • 특성 집중환각 정보는 희소한 특성 부분집합에 집중되며, 깊은 인코더 층일수록 판별력 증가.

한계·조건

  • 테스트셋비음성 오디오(무음, 음악, 잡음 등)에 한정, 다양한 환각 유형에 대한 일반화는 추가 검증 필요.
  • 코드 공개현재 논문만 공개, 코드 및 모델 가중치 미공개.

편집자 한 줄

SAE 기반 조정이 파인튜닝 없이도 환각을 크게 줄인 점은 실용적이지만, 다양한 도메인에서의 안정성은 추가 확인이 필요해 보입니다.

  • #whisper
  • #hallucination
  • #sae
  • #asr
  • #huawei
HUAWEI Noah's Ark Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —