Papers·2일 전
SYNCRED-Bench: AI 생성 이미지의 '신뢰성 위조' 탐지 벤치마크 — 15개 MLLM 평균 TPR 10.5%

생성형 AI가 현실적인 텍스트·레이아웃을 가진 이미지를 만들면서 '합성 신뢰성(synthetic credibility)'이라는 새로운 허위 정보 위협이 부상했습니다. 논문은 600장의 AI 생성 허위 정보 이미지로 구성된 SYNCRED-Bench와 실제 이미지 부정 세트 FP450을 공개했습니다. 15개 멀티모달 LLM(MLLM)은 5% 오탐률 제약 하에서 평균 10.5%의 진양성률(TPR)을 기록했고, 오픈소스 AIGC 탐지기는 5% 미만, 상용 API는 57.6%에 그쳤습니다. 사람조차 63% TPR에 불과해, 표면적 신뢰성 단서를 넘어서는 탐지기가 시급함을 보여줍니다.
합성 신뢰성(synthetic credibility) — AI가 만든 가짜 이미지가 진짜처럼 보이게 하는 새로운 허위 정보 위협을 체계적으로 평가한 벤치마크입니다.
핵심 결론
- 벤치마크 — SYNCRED-Bench: 600장의 AI 생성 허위 정보 이미지, 6개 신뢰성 카테고리(뉴스, 문서, 인증서 등), 7개 유포 스타일 포함.
- 부정 세트 — FP450: 실제 이미지 450장으로 오탐률 측정.
- 성능 — 5% FPR 제약 하에 15개 MLLM 평균 TPR 10.5%, 오픈소스 AIGC 탐지기 <5%, 상용 API 57.6%.
- 인간 성능 — 사람 주석자도 63% TPR에 그쳐, 기존 탐지 방식의 한계를 확인했습니다.
방법
- 데이터 구성 — SYNCRED-Bench는 신뢰성 있는 형식(뉴스 기사, 공문서, 인증서, SNS 게시물 등)을 모방한 AI 생성 이미지를 수집·생성해 6개 카테고리로 분류.
- 유포 스타일 — 7가지 미세 유포 스타일(예: 워터마크, 로고, 서명, 날짜 스탬프 등)을 포함해 현실적 위조 시나리오를 반영.
- 평가 방식 — MLLM, 오픈소스 AIGC 탐지기, 상용 API(예: GPT-4V, Gemini)를 동일 조건에서 비교.
한계·조건
- 범위 — 벤치마크는 600장으로 규모가 작고, 특정 생성 모델(DALL·E 3, Midjourney 등)에 편향될 가능성이 있습니다.
- 재현성 — 데이터셋과 코드는 공개 예정이지만, 현재 논문만 공개된 상태입니다.
- 실용성 — 5% FPR 제약은 실제 배포 환경에서 중요하지만, 모든 사용 사례에 적합하지는 않습니다.
편집자 한 줄
합성 신뢰성은 단순한 AIGC 탐지를 넘어, 이미지 내 텍스트·레이아웃의 논리적 일관성까지 평가해야 한다는 점을 시사합니다. 후속 연구가 기대되는 벤치마크네요.
- #synthetic-credibility
- #misinformation
- #benchmark
- #aigc-detection
- #mllm
Junxiao Yang