Papers·5일 전
AURA: LLM 기반 마스크-재구성 텍스트 익명화 — 에이전틱 웹 검색 재식별 공격에 대한 저항성 향상

Northeastern PEACH Lab 이 웹 검색 에이전트를 활용한 재식별 공격에 대응하는 텍스트 익명화 프레임워크 AURA 를 제안했습니다. LLM 기반 mask-reconstruct 방식으로 프라이버시 보호와 유틸리티 유지를 분리하고, 적대적 검증을 통해 최적 후보를 선택합니다. 실제 인터뷰 데이터에서 기존 방식 대비 재식별 저항성을 높이면서도 문맥적 유틸리티 손실을 최소화했습니다. 단, 평가가 특정 도메인(인터뷰 전사)에 국한되어 일반화 가능성은 추가 검증이 필요합니다.
웹 검색이 가능한 에이전틱 LLM 의 등장으로 텍스트 익명화의 위협 모델이 바뀌었습니다. 약한 맥락 단서도 재식별 증거로 활용될 수 있지만, 동시에 그 세부 정보는 텍스트의 분석적 가치를 지니기도 하죠.
핵심 결론
- 태스크 — 텍스트 익명화: 웹 검색 에이전트의 재식별 공격에 저항하면서 원문의 유틸리티를 유지.
- 개선폭 — 기존 대비 privacy-utility frontier 를 개선 — adaptive privacy scope 로 재식별 저항성 향상, mask-reconstruct 방식으로 고정 privacy scope 에서 유틸리티 보존.
방법
- 구조 — LLM 기반 mask-reconstruct 프레임워크: 프라이버시 위치 파악(mask)과 유틸리티 보존 재구성(reconstruct)을 분리.
- 선택 — 적대적 검증(adversarial privacy & utility-retention checks)을 통해 후보 중 최적 익명화 텍스트를 선택.
- 웹 검색 에이전트를 재식별 공격자로 가정하여 평가한 점이 기존 연구와의 차별점입니다.
한계·조건
- 데이터 — 실제 사용자 인터뷰 전사 데이터로 평가 — 특정 도메인에 국한될 가능성.
- 공격 모델 — 웹 검색 에이전트 기반 재식별 공격만 고려, 다른 프라이버시 위협(예: 통계적 추론)은 미포함.
- 코드 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
웹 검색 에이전트를 재식별 공격에 활용한 점이 새롭습니다. 다만 평가 데이터셋이 인터뷰 전사로 한정적이라 일반화 가능성은 좀 더 지켜봐야겠네요.
- #anonymization
- #privacy
- #llm
- #northeastern
Northeastern PEACH Lab