Papers·1개월 전

CNA: 0.1% MLP 뉴런만 조작해도 거절 행동 제어 — Llama/Qwen 1B~72B에서 거절률 50% 감소

NousResearch 팀이 contrastive neuron attribution (CNA)을 제안, 유해/무해 프롬프트를 가장 잘 구분하는 0.1% MLP 뉴런을 찾아 제거만으로도 표준 jailbreak 벤치마크에서 거절률을 50% 넘게 낮췄습니다. 기존 residual stream 방식과 달리 품질 저하 없이 행동 제어가 가능한 점이 핵심. 흥미로운 점은 base 모델에도 유사한 구조가 있지만, 해당 뉴런을 조작해도 콘텐츠 변화만 있을 뿐 거절 행동 자체는 바뀌지 않는다는 것 — alignment fine-tuning이 기존의 변별 구조를 sparse한 거절 게이트로 전환한다는 해석이 가능합니다.

#alignment
#safety
#interpretability
#nousresearch

NousResearch

원문 보기 →

CNA: 0.1% MLP 뉴런만 조작해도 거절 행동 제어 — Llama/Qwen 1B~72B에서 거절률 50% 감소

Comments