Papers·2일 전
신뢰도 평가 메트릭의 사각지대 — 정밀도만 측정하면 모델이 침묵으로 점수를 얻는다

현행 faithfulness 메트릭이 정밀도(precision)만 측정해 모델이 거의 말을 하지 않아도 높은 점수를 받는 문제를 지적합니다. F1(포뮬러 원) 경주 데이터(7,253개 결정 인스턴스, EN/ES/PT 다국어)를 이용해 재현율(recall)을 정확히 측정한 결과, 가장 정밀한 모델이 F1 기준 최하위를 기록했습니다. NOAA 기상 예보 도메인에서도 동일한 패턴이 재현되며, coverage를 포함한 단일 점수와 verifier-guided generation 방법도 제시합니다.
Faithfulness 메트릭이 정밀도만 측정해 모델의 '침묵 전략'을 보상한다는 문제를 F1 경주 데이터로 실증했습니다.
핵심 결론
- 문제 — 기존 faithfulness 메트릭은 정밀도(지원되는 주장)만 측정해, 모델이 거의 말하지 않아도 높은 점수를 받습니다.
- 실증 — F1 경주 데이터(7,253개 결정, 150개 레이스, EN/ES/PT)에서 가장 정밀한 frontier 모델이 관련 사실의 절반 미만만 다뤄 F1 기준 최하위.
- NOAA 기상 예보 도메인에서도 동일한 패턴이 확인되어, coverage 부재가 일반적 문제임을 시사합니다.
방법
- 완전한 오라클 — F1 경주에서는 각 결정에 영향을 미친 모든 사실을 결정론적으로 추출할 수 있어, 재현율을 정확히 측정할 수 있습니다.
- 프롬프트 실험 — 모델에게 '철저히 답하라'고 요청해도 coverage가 개선되지 않아, 저조한 재현율이 단순 프롬프팅 문제가 아님을 확인.
- 통합 메트릭 — Faithfulness와 coverage를 하나의 점수로 결합하고, 모델-프리 regex 추출기와 LLM 추출기 간 시스템 수준 Spearman 1.0 일치를 검증.
- 생성 방법 — Verifier-guided generation으로 정밀도와 재현율을 모두 개선하는 참조-프리 방법을 제시합니다.
한계·조건
- 도메인 — 완전한 오라클이 존재하는 도메인(F1, 기상)에서만 재현율 측정이 가능해, 일반 오픈 도메인으로의 확장은 추가 연구 필요.
- 공개 — 벤치마크, 구조화 주석, 메트릭, 베이스라인, 인터랙티브 데모를 공개합니다.
편집자 한 줄
Faithfulness 평가에서 '말을 아끼는' 모델이 높은 점수를 받는 역설을 명확히 짚은 점이 흥미롭습니다. 완전한 오라클이 있는 도메인에서만 검증 가능한 방법이지만, 평가 패러다임에 중요한 질문을 던집니다.
- #faithfulness
- #evaluation
- #recall
- #f1-telemetry
- #grounded-generation
Juan S. Santillana