Papers·3개월 전

SAE를 추론 시 residual stream에 주입해 jailbreak 성공률 5배 감소 — GCG·BEAST 공격 방어

Aikyam Lab 연구팀이 Sparse Autoencoder(SAE)를 transformer residual stream에 추론 시 주입하는 방식으로 white-box jailbreak 공격(GCG, BEAST)에 대한 방어를 제안했습니다. 가중치 수정 없이 SAE를 통합해 Gemma, LLaMA, Mistral, Qwen 모델에서 jailbreak 성공률을 최대 5배 줄였고, cross-model 공격 전이도 감소시켰습니다. L0 sparsity와 방어 성능 간 단조 관계, 중간 layer에서 clean 성능과 방어 간 tradeoff가 관찰되었는데, 이는 sparse projection이 공격에 이용되는 최적화 기하를 변형한다는 가설로 설명됩니다. 단, SAE 추가로 인한 latency 증가와 clean accuracy 하락이 일부 layer에서 발생합니다.

#jailbreak
#sae
#llm
#safety
#aikyam-lab

Aikyam Lab

원문 보기 →

SAE를 추론 시 residual stream에 주입해 jailbreak 성공률 5배 감소 — GCG·BEAST 공격 방어

Comments