Papers·4일 전

LegalHalluLens: 법률 AI 환각을 유형·방향별로 진단하는 감사 프레임워크 — CUAD 52% 환각률 내 38~40pp 차이 발견

법률 AI의 평균 환각률(~52%)은 유형별 편향을 가린다는 점을 보여주는 감사 프레임워크 LegalHalluLens를 제안합니다. 의무/수치형과 시간형 클레임 간 최대 38~40%p 차이를 측정했고, 동일 52% 환각률을 가진 두 시스템이 반대 방향 위험(RDI)을 가질 수 있음을 밝혔습니다. 다중 에이전트 토론 파이프라인에 유형별 진단을 결합해 허위 탐지를 45% 줄였으며, 4B 파라미터 모델로 상용 API 수준을 달성했습니다.

법률 AI의 평균 환각률 52%는 유형별·방향별 오류를 감춰 실무 배포에 쓸모없는 신호라는 문제의식에서 출발했습니다.

핵심 결론

데이터 — CUAD 데이터셋 510개 계약, 249,252개 클레임 수준 인스턴스 분석.
유형별 격차 — 의무/수치형과 시간형 클레임 간 환각률 차이가 동일 모델 내에서 38~40%p에 달함.
방향 지표 — RDI(Risk Direction Index)로 누락(omission) 대 창작(invention) 편향을 단일 스칼라로 비교 가능.
토론 개선 — 유형별 진단을 반영한 토론 파이프라인으로 허위 탐지 45% 감소, 4B 모델로 상용 API 수준.

방법

유형 분류 — 4가지 법적 클레임 유형(수치, 시간, 의무/권리, 사실)으로 환각 프로파일링.
RDI — 누적 누락 대비 창작 비율을 -1~1로 정규화한 지표로, 배포 시 방향성 평가에 활용.
토론 파이프라인 — Skeptic 역할의 에이전트가 진단된 취약 유형에 집중해 challenge를 생성, 비대칭 게이트로 필터링.

한계·조건

데이터 — CUAD 단일 데이터셋 기반으로, 다른 법률 영역(판례, 규제) 일반화는 추가 검증 필요.
모델 — 토론 파이프라인은 4B 활성 파라미터 모델로 테스트되었으나, 더 큰 모델에서의 이득은 미확인.
코드 — 논문 내 코드·데이터 공개 여부는 명시되지 않음.

편집자 한 줄

평균에 가려진 유형별·방향별 편향을 드러낸 점이 실무적으로 유용합니다. 다만 CUAD 외 벤치마크에서의 재현성이 관건.

#legal-ai
#hallucination
#audit
#cuad
#debate

Independent Research

원문 보기 →

LegalHalluLens: 법률 AI 환각을 유형·방향별로 진단하는 감사 프레임워크 — CUAD 52% 환각률 내 38~40pp 차이 발견

핵심 결론

방법

한계·조건

Comments