Ships·1년 전

Hugging Face: Abliteration으로 LLM 검열 해제 — 재학습 없이 거부 방향 제거

Hugging Face 커뮤니티 아티클에서 Maxime Labonne이 'abliteration' 기법을 공개했다. 이는 LLM의 잔차 스트림에서 '거부 방향'을 식별해 제거함으로써 재학습 없이 검열을 해제한다. 유해/무해 명령어 쌍의 활성화 차이를 기반으로 방향을 계산하며, 코드는 Colab과 GitHub에서 제공된다. 단, 안전 기능을 의도적으로 무력화하므로 오용 가능성에 주의해야 한다.

#hugging-face
#abliteration
#llm
#uncensoring
#safety

Hugging Face

원문 보기 →

Hugging Face: Abliteration으로 LLM 검열 해제 — 재학습 없이 거부 방향 제거

Comments