Papers·1개월 전

TELL: 설명 가능한 AI 텍스트 탐지기 — AUROC 0.927, 인간 판단 지원

기존 AI 텍스트 탐지기는 숫자 점수만 제공해 실제 사용자(교수 등)에게 불친절했습니다. 새로운 아키텍처 TELL은 처음부터 설명 가능성을 내장해, 텍스트의 어떤 부분이 AI/인간 작성으로 판단되는지 '텔(tell)'을 표시합니다. SFT + GRPO + 커리큘럼 학습으로 학습되었으며, AUROC 0.927로 SOTA와 경쟁력 있는 성능을 내면서도 설명의 구체성·반증 가능성 등에서 인간 평가 기준 72.3% 승률을 기록했습니다. 단, 도메인 특화 SFT 데이터셋에 의존하므로 일반화 범위는 추가 검증이 필요합니다.

AI 텍스트 탐지기를 실제 교수나 편집자가 쓰려면 점수만으론 부족합니다. TELL은 '왜'를 함께 보여주는 새로운 접근입니다.

핵심 결론

성능 — AUROC 0.927로 SOTA 탐지기와 경쟁력 있는 수준.
설명 품질 — 구체성·반증 가능성·일관성·타당성·근거 측면에서 인간 평가 기준 72.3% 승률.
사용자 경험 — 숫자 점수 외에 텍스트 내 '텔(tell)'을 하이라이트하여 사용자가 직접 판단할 수 있도록 지원.

방법

아키텍처 — TELL은 처음부터 설명 가능성을 설계 목표로 삼은 모델로, 기존 분류기 위에 설명을 붙이는 post-hoc 방식이 아닙니다.
학습 — 도메인 특화 저자 주석 SFT 데이터셋으로 학습한 후, GRPO와 커리큘럼 학습으로 추가 미세 조정.
설명 생성 — 모델이 AI/인간 판단의 근거가 된 구체적인 텍스트 구간을 '텔'로 제시.

한계·조건

데이터 의존성 — SFT 데이터셋이 특정 도메인(예: 에세이, 뉴스)에 편향될 가능성이 있어 일반화 범위는 추가 연구 필요.
평가 — 설명 품질 평가는 인간 주석 데이터셋 기준이며, 실제 사용자 만족도와의 괴리가 있을 수 있습니다.
코드 공개 — 현재 Hugging Face 논문으로 코드는 공개되지 않았습니다.

편집자 한 줄

설명 가능성을 처음부터 고려한 점은 신선하지만, SFT 데이터셋의 규모와 다양성이 성능에 큰 영향을 줄 테니 후속 연구를 지켜볼 만합니다.

#ai-detection
#explainability
#llm
#grpo

Aldan Creo

원문 보기 →

TELL: 설명 가능한 AI 텍스트 탐지기 — AUROC 0.927, 인간 판단 지원

핵심 결론

방법

한계·조건

Comments