Papers·1주 전
환각 탐지 지연 시간 분석 — CUSUM 기반 온셋 탐지가 토큰 단위 분류 AUC보다 2.5배 빠름

토큰 수준 환각 탐지기를 AUC로 평가하는 기존 방식은 탐지 지연 시간을 반영하지 못합니다. 저자들은 환각 온셋 탐지를 quickest change detection 문제로 정식화하고, RAGTruth 데이터셋에서 검증된 1차 마르코프 모델을 통해 Lorden 하한 약 1.3 토큰을 도출했습니다. 인과적 순회 레이블러(CUSUM)는 동일 오경보율에서 11-13 토큰으로 탐지해 선형 기준(31 토큰) 대비 2.5배 빠르며, 성능 향상의 대부분은 토큰별 점수 개선 덕분입니다. Donsker-Varadhan 정보율 최적성 정리는 학습된 점수가 특징이 가진 발산의 1/4.5만 실현한다는 한계를 설명합니다.
환각 탐지의 지연 시간을 측정하는 새로운 프레임워크 — AUC는 숨기고 있던 실제 성능 차이를 드러냅니다.
핵심 결론
- 문제 설정 — 환각 온셋 탐지를 quickest change detection 문제로 정식화, 기존 분류 AUC보다 지연 시간이 더 실용적임을 입증.
- 하한 — Lorden 하한: 오경보율 0.01에서 약 1.3 토큰.
- 성능 — CUSUM 방식이 동일 오경보율에서 11-13 토큰으로 탐지, 선형 기준(31 토큰) 대비 2.5배 빠름.
방법
- 모델 — RAGTruth 데이터로 검증된 1차 마르코프 은닉 상태 모델(충실/환각) 사용.
- 알고리즘 — 인과적 순회 레이블러를 CUSUM으로 해석, 학습된 점수를 누적해 변화점 탐지.
- 분해 분석을 통해 성능 향상의 대부분이 토큰별 점수 개선(누적 효과보다 큼)에 기인함을 확인.
한계·조건
- 정보율 격차 — Donsker-Varadhan 정리에 따르면 학습된 점수는 특징이 가진 발산의 1/4.5만 실현, 재교정으로 해결 불가.
- 유한 수평 효과 — 나머지 격차는 유한 수평 효과로 설명되며, 실제 배포 시 추가 지연 가능.
- 데이터 — RAGTruth 단일 데이터셋 기반, 다른 도메인 일반화는 미검증.
편집자 한 줄
분류 AUC가 지연 시간을 가린다는 지적은 타당하며, 실시간 모니터링 시스템 설계에 직접적인 시사점을 줍니다.
- #hallucination-detection
- #change-point-detection
- #cusum
- #ragtruth
- #sequential-analysis
Igor Itkin