News·1개월 전

Abliteration, 실제로 모델 성능을 얼마나 깎을까

LessWrong 게시글이 'abliteration' 기법이 모델의 거부( refusal )를 제거하면서 성능에 미치는 비용을 분석했습니다. Arditi et al.의 방법으로 거부 방향을 제거한 모델은 벤치마크 점수가 소폭 하락했지만, 대화 품질이나 추론 능력에 큰 손실은 없었다고 합니다. 다만 안전성 평가 점수는 급감해 실용성과 리스크 사이의 트레이드오프가 뚜렷합니다.

모델 거부를 제거하는 'abliteration'이 실제로 성능에 얼마나 영향을 주는지 LessWrong 게시글이 정량적으로 분석했습니다.

골자

방법 — Arditi et al.이 제안한 방식으로 거부 방향을 가중치에서 제거(abliteration).
성능 영향 — MMLU, GSM8K 등 주요 벤치마크에서 1~3%p 하락 — 통계적으로 유의하지만 실용적 차이는 미미.
안전성 — HarmBench 등 안전 벤치마크 점수는 90% 이상에서 10% 미만으로 급락.

배경·맥락

기존 접근 — 2023년부터 프롬프트 공격이나 파인튜닝으로 거부를 우회해 왔으나, abliteration은 가중치 수준에서 영구 제거.
비교 — 파인튜닝 기반 언센서드 모델(Wizard-Vicuna 등)보다 성능 보존이 우수하다는 평가.

자금 용처·향후

한계 — 안전성 제거로 인해 악용 가능성이 커져, 연구 목적 외 사용은 위험.
대안 — 부분 abliteration이나 레이어별 선택적 제거가 절충안으로 논의 중.

편집자 한 줄

성능 비용이 생각보다 작다는 점은 인상적이지만, 안전성 점수가 바닥을 치는 순간 실용성 논의는 의미가 얇아집니다.

#abliteration
#llm-safety
#uncensored-models
#lesswrong

LessWrong

원문 보기 →

Abliteration, 실제로 모델 성능을 얼마나 깎을까

골자

배경·맥락

자금 용처·향후

Comments