Papers·3개월 전

Benign fine-tuning elevates Audio LLM jailbreak success to 87% — proximity decomposition reveals architecture-conditioned vulnerability

Audio LLM의 benign fine-tuning이 safety를 크게 저하시켜 Jailbreak Success Rate (JSR)를 최대 87.12%까지 높인다는 최초의 체계적 연구. 기존 텍스트/비전 모달리티에서의 관찰을 오디오로 확장하며, 유해 콘텐츠와의 임베딩 공간 거리를 기준으로 benign 샘플을 필터링하는 proximity 기반 프레임워크를 도입. semantic, acoustic, mixed 축으로 proximity를 분해한 결과, 취약성의 주축과 오디오 대 텍스트 fine-tuning의 상대적 위험도가 모델 아키텍처(인코더/프로젝터의 변환 방식)에 따라 결정됨을 발견. 두 가지 방어 기법(학습 데이터 필터링, 추론 시 텍스트 시스템 프롬프트)으로 JSR을 거의 0으로 낮출 수 있으나, 메커니즘 분석은 fine-tuning이 후반부 refusal 회로를 선택적으로 억제하며 그 패턴조차 아키텍처 의존적임을 보임.

#audio-llm
#safety
#fine-tuning
#jailbreak
#proximity

Jaechul Roh

원문 보기 →

Benign fine-tuning elevates Audio LLM jailbreak success to 87% — proximity decomposition reveals architecture-conditioned vulnerability

Comments