Papers·1주 전
SAE를 추론 시 residual stream에 주입해 jailbreak 성공률 5배 감소 — GCG·BEAST 공격 방어

Aikyam Lab 연구팀이 Sparse Autoencoder(SAE)를 transformer residual stream에 추론 시 주입하는 방식으로 white-box jailbreak 공격(GCG, BEAST)에 대한 방어를 제안했습니다. 가중치 수정 없이 SAE를 통합해 Gemma, LLaMA, Mistral, Qwen 모델에서 jailbreak 성공률을 최대 5배 줄였고, cross-model 공격 전이도 감소시켰습니다. L0 sparsity와 방어 성능 간 단조 관계, 중간 layer에서 clean 성능과 방어 간 tradeoff가 관찰되었는데, 이는 sparse projection이 공격에 이용되는 최적화 기하를 변형한다는 가설로 설명됩니다. 단, SAE 추가로 인한 latency 증가와 clean accuracy 하락이 일부 layer에서 발생합니다.
- #jailbreak
- #sae
- #llm
- #safety
- #aikyam-lab
Aikyam Lab