Papers·1개월 전

MANSU: 양자화 후에도 지워진 지식이 되살아나지 않는 기계 망각 방법

Lexsi Labs 연구진은 양자화(4-bit) 후 기계 망각이 되살아나는 현상이 단순한 튜닝 문제가 아니라 구조적 이중 실패임을 밝혔습니다. gradient 기반 방법은 망각 효과가 크지만 양자화 시 복원되고, 양자화에 강한 방법은 모델 변화가 거의 없었는데, 그 원인은 per-parameter 업데이트가 NF4 양자화 bin 폭보다 47~828배 작아 bin 경계를 넘지 못하기 때문입니다. 이를 해결한 MANSU는 causal circuit attribution으로 최소 망각 서브그래프를 찾고, circuit-restricted null-space projection과 diagonal-Fisher retain bound를 적용하며, per-parameter magnitude floor로 양자화 생존을 보장합니다. 여러 모델과 벤치마크에서 MANSU는 의미 있는 망각, 보존 유지, 양자화 후 성능 저하 없음, 구조적 삭제의 네 가지 속성을 모두 만족한 첫 번째 방법이며, 기존 방법은 양자화 후 최대 +0.05 정확도가 회복됩니다.

#machine-unlearning
#quantization
#llm
#mechanistic-interpretability
#lexsi-labs

Lexsi Labs

원문 보기 →

MANSU: 양자화 후에도 지워진 지식이 되살아나지 않는 기계 망각 방법

Comments