Papers·1개월 전

Apple, 단일 뉴런 조작으로 LLM 안전 정렬 우회 — 7개 모델에서 훈련·프롬프트 없이

Apple 연구진이 언어 모델의 안전 정렬이 두 가지 기계적으로 다른 시스템(거절 뉴런과 개념 뉴런)을 통해 작동하며, 각 시스템에서 단일 뉴런을 타겟팅해 안전 정렬을 우회하거나 무해한 프롬프트에서 유해 콘텐츠를 유도할 수 있음을 1.7B~70B 파라미터, 7개 모델에서 입증했습니다. 거절 뉴런 하나를 억제하면 다양한 유해 요청에 대해 안전 정렬이 무력화된다는 점에서, 현재 정렬이 가중치 전체에 분산되지 않고 개별 뉴런에 의존한다는 취약성을 드러냅니다. 훈련이나 프롬프트 엔지니어링 없이도 가능하다는 점이 특히 주목할 만합니다.

#safety
#alignment
#interpretability
#apple

Apple

원문 보기 →

Apple, 단일 뉴런 조작으로 LLM 안전 정렬 우회 — 7개 모델에서 훈련·프롬프트 없이

Comments