Papers·1개월 전

PASA: 의미 수준 워터마킹 — 패러프레이징 공격에도 강인한 LLM 텍스트 검출

Zhenxin Ai 팀이 제안한 PASA는 LLM 생성 텍스트에 대한 워터마킹 알고리즘으로, 의미 수준에서 워터마크를 삽입·검출합니다. 기존 어휘 공간 방식과 달리 잠재 임베딩 공간의 의미 클러스터를 활용해 패러프레이징 같은 의미-불변 공격에도 강인하며, 검출 정확도·강인성·왜곡 간의 근본적 트레이드오프를 이론적으로 분석한 점이 특징입니다. 여러 LLM과 강한 패러프레이징 공격에서도 높은 텍스트 품질을 유지하며 기법 대비 우수한 성능을 보였습니다.

#watermarking
#llm
#robustness
#paraphrasing
#semantic

Zhenxin Ai

원문 보기 →

PASA: 의미 수준 워터마킹 — 패러프레이징 공격에도 강인한 LLM 텍스트 검출

Comments