Ships·6개월 전
Hugging Face, Norm-Preserving Biprojected Abliteration 공개 — 거절 행동 제거 기술 개선, 추론 성능 향상

Hugging Face 커뮤니티에서 기존 abliteration 기법을 개선한 Norm-Preserving Biprojected Abliteration을 발표했습니다. 기존 방식은 거절 방향을 단순히 빼는 방식이었지만, 이번 기법은 가중치 노름을 보존하면서 기계적으로 관련된 성분만 제거해 해석 가능성을 높였습니다. 특히 기존 abliteration이 성능을 저하시킨다는 통념과 달리, 이 방법은 기준 모델 대비 추론 성능(NatInt)을 18.72에서 21.33으로 개선했습니다. 다만 biprojected 버전에서는 일부 안전 거절이 다시 나타나는 트레이드오프가 있습니다.
- #hugging-face
- #abliteration
- #interpretability
- #safety
- #reasoning
Hugging Face