← Back to feed
Papers·2주 전

LoRA 어댑터 백도어 공격 — 데이터 중독으로 clean accuracy 유지하며 트리거 일반화, 행동 탐지로 완벽 분리

LoRA 어댑터 백도어 공격 — 데이터 중독으로 clean accuracy 유지하며 트리거 일반화, 행동 탐지로 완벽 분리

Qwen 2.5 1.5B prompt-injection classifier 에서 소량의 poisoned example 로 clean accuracy 를 유지하는 백도어가 saturation 에 도달합니다. 백도어는 구조적 패턴이 아닌 token feature 수준에서 일반화되어, RFC 참조로 학습하면 ISO/OWASP 등 다른 구조적 인용에는 전이되지 않아 방어가 어렵습니다. 행동 탐지기(probe battery 기반 outlier_gap, mean_attack_rate)와 가중치 통계(cross-module std of normalized Frobenius norm) 모두 poisoned/clean 어댑터를 완벽 분리하며, causal patching 으로 백도어가 mid-to-late MLP block 의 down_proj 에 국한됨을 확인했습니다.

LoRA 어댑터가 데이터 중독을 통해 baseline 성능을 유지하면서도 백도어를 심을 수 있음을 보인 논문입니다.

핵심 결론

  • 공격 성공Qwen 2.5 1.5B prompt-injection classifier 에서 소량의 poisoned example 로 clean accuracy 를 유지하는 백도어가 saturation.
  • 일반화 특성백도어는 token feature 수준에서 일반화되어 RFC 참조로 학습하면 ISO/OWASP 등 다른 구조적 인용에는 전이되지 않음.
  • 탐지 완벽행동 탐지기와 가중치 통계 모두 poisoned/clean 어댑터를 완벽 분리 (zero false positive).

방법

  • 공격 설정LoRA rank, base model scale/family, trigger string 에 따른 백도어 특성 분석.
  • 탐지 경로행동 탐지: probe battery 통계 outlier_gap, mean_attack_rate. 가중치 탐지: cross-module std of dimension-normalized Frobenius norms.
  • 원인 분석Causal patching 으로 백도어가 mid-to-late MLP block 의 down_proj 에 국한됨을 확인.

한계·조건

  • 스케일 의존공격은 rank 에 단조 증가하며, trigger-anchor token 은 base model 에 의존적.
  • 탐지 전이행동 탐지기는 base model 교체 시 재조정 없이 전이 가능하나, 가중치 통계는 calibration 필요.
  • 방어 어려움백도어가 구조적 패턴이 아닌 token feature 수준에서 일반화되어, 방어자가 '구조적 인용'을 일반적으로 탐지하기 어려움.

편집자 한 줄

LoRA 어댑터 공급망 보안에 실질적인 위협을 제기하는 연구네요. 행동 탐지기의 전이 가능성은 실용적이지만, probe battery 구성에 따른 민감도는 추가 분석이 필요해 보입니다.

  • #loRA
  • #backdoor
  • #adapter
  • #security
  • #qwen
Travis Lelle
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —