Papers·1주 전
TELL: 설명 가능한 AI 텍스트 탐지기 — AUROC 0.927, 인간 판단 지원

기존 AI 텍스트 탐지기는 숫자 점수만 제공해 실제 사용자(교수 등)에게 불친절했습니다. 새로운 아키텍처 TELL은 처음부터 설명 가능성을 내장해, 텍스트의 어떤 부분이 AI/인간 작성으로 판단되는지 '텔(tell)'을 표시합니다. SFT + GRPO + 커리큘럼 학습으로 학습되었으며, AUROC 0.927로 SOTA와 경쟁력 있는 성능을 내면서도 설명의 구체성·반증 가능성 등에서 인간 평가 기준 72.3% 승률을 기록했습니다. 단, 도메인 특화 SFT 데이터셋에 의존하므로 일반화 범위는 추가 검증이 필요합니다.
AI 텍스트 탐지기를 실제 교수나 편집자가 쓰려면 점수만으론 부족합니다. TELL은 '왜'를 함께 보여주는 새로운 접근입니다.
핵심 결론
- 성능 — AUROC 0.927로 SOTA 탐지기와 경쟁력 있는 수준.
- 설명 품질 — 구체성·반증 가능성·일관성·타당성·근거 측면에서 인간 평가 기준 72.3% 승률.
- 사용자 경험 — 숫자 점수 외에 텍스트 내 '텔(tell)'을 하이라이트하여 사용자가 직접 판단할 수 있도록 지원.
방법
- 아키텍처 — TELL은 처음부터 설명 가능성을 설계 목표로 삼은 모델로, 기존 분류기 위에 설명을 붙이는 post-hoc 방식이 아닙니다.
- 학습 — 도메인 특화 저자 주석 SFT 데이터셋으로 학습한 후, GRPO와 커리큘럼 학습으로 추가 미세 조정.
- 설명 생성 — 모델이 AI/인간 판단의 근거가 된 구체적인 텍스트 구간을 '텔'로 제시.
한계·조건
- 데이터 의존성 — SFT 데이터셋이 특정 도메인(예: 에세이, 뉴스)에 편향될 가능성이 있어 일반화 범위는 추가 연구 필요.
- 평가 — 설명 품질 평가는 인간 주석 데이터셋 기준이며, 실제 사용자 만족도와의 괴리가 있을 수 있습니다.
- 코드 공개 — 현재 Hugging Face 논문으로 코드는 공개되지 않았습니다.
편집자 한 줄
설명 가능성을 처음부터 고려한 점은 신선하지만, SFT 데이터셋의 규모와 다양성이 성능에 큰 영향을 줄 테니 후속 연구를 지켜볼 만합니다.
- #ai-detection
- #explainability
- #llm
- #grpo
Aldan Creo