Papers·2개월 전

LoRA 어댑터 백도어 공격 — 데이터 중독으로 clean accuracy 유지하며 트리거 일반화, 행동 탐지로 완벽 분리

Qwen 2.5 1.5B prompt-injection classifier 에서 소량의 poisoned example 로 clean accuracy 를 유지하는 백도어가 saturation 에 도달합니다. 백도어는 구조적 패턴이 아닌 token feature 수준에서 일반화되어, RFC 참조로 학습하면 ISO/OWASP 등 다른 구조적 인용에는 전이되지 않아 방어가 어렵습니다. 행동 탐지기(probe battery 기반 outlier_gap, mean_attack_rate)와 가중치 통계(cross-module std of normalized Frobenius norm) 모두 poisoned/clean 어댑터를 완벽 분리하며, causal patching 으로 백도어가 mid-to-late MLP block 의 down_proj 에 국한됨을 확인했습니다.

LoRA 어댑터가 데이터 중독을 통해 baseline 성능을 유지하면서도 백도어를 심을 수 있음을 보인 논문입니다.

핵심 결론

공격 성공 — Qwen 2.5 1.5B prompt-injection classifier 에서 소량의 poisoned example 로 clean accuracy 를 유지하는 백도어가 saturation.
일반화 특성 — 백도어는 token feature 수준에서 일반화되어 RFC 참조로 학습하면 ISO/OWASP 등 다른 구조적 인용에는 전이되지 않음.
탐지 완벽 — 행동 탐지기와 가중치 통계 모두 poisoned/clean 어댑터를 완벽 분리 (zero false positive).

방법

공격 설정 — LoRA rank, base model scale/family, trigger string 에 따른 백도어 특성 분석.
탐지 경로 — 행동 탐지: probe battery 통계 outlier_gap, mean_attack_rate. 가중치 탐지: cross-module std of dimension-normalized Frobenius norms.
원인 분석 — Causal patching 으로 백도어가 mid-to-late MLP block 의 down_proj 에 국한됨을 확인.

한계·조건

스케일 의존 — 공격은 rank 에 단조 증가하며, trigger-anchor token 은 base model 에 의존적.
탐지 전이 — 행동 탐지기는 base model 교체 시 재조정 없이 전이 가능하나, 가중치 통계는 calibration 필요.
방어 어려움 — 백도어가 구조적 패턴이 아닌 token feature 수준에서 일반화되어, 방어자가 '구조적 인용'을 일반적으로 탐지하기 어려움.

편집자 한 줄

LoRA 어댑터 공급망 보안에 실질적인 위협을 제기하는 연구네요. 행동 탐지기의 전이 가능성은 실용적이지만, probe battery 구성에 따른 민감도는 추가 분석이 필요해 보입니다.

#loRA
#backdoor
#adapter
#security
#qwen

Travis Lelle

원문 보기 →

LoRA 어댑터 백도어 공격 — 데이터 중독으로 clean accuracy 유지하며 트리거 일반화, 행동 탐지로 완벽 분리

핵심 결론

방법

한계·조건

Comments