Papers·1개월 전

옥스퍼드, LLM 지식 망각 깊이를 4~50배 개선한 RepSelect — fine-tuning 공격에도 강건

옥스퍼드 대학 연구팀이 LLM이 특정 지식이나 가치를 깊이 잊게 하는 방법 RepSelect를 제안했습니다. 기존 망각 방법은 fine-tuning이나 few-shot prompting으로 쉽게 복원되는 표면적 망각에 그쳤는데, RepSelect는 forget-set 특화 representation을 분리해 망각 후 재학습 공격에도 4~50배 더 강한 내성을 보였습니다. 생물학적 위험 지식과 학대 성향 두 범주, Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite 등 네 모델 패밀리에서 검증했습니다.

옥스퍼드 대학 연구팀이 LLM 망각의 근본 문제를 지적하고, forget-set 특화 representation을 분리하는 RepSelect를 제안했습니다.

핵심 결론

성능 — 재학습 후 정답률 감소 폭이 가장 강한 baseline 대비 4~50배 큼.
강건성 — few-shot prompting 공격에 거의 완벽하게 내성.
일반 능력 — 일반 성능 유지 — retain set 성능 저하 최소화.

방법

핵심 아이디어 — 기존 방법은 forget-set과 retain-set이 공유하는 representation을 타겟으로 해서 미세 조정으로 쉽게 복원됨.
RepSelect — 각 업데이트 전 weight gradient의 주성분을 제거해 forget-set에만 특화된 representation만 collapse.
이렇게 하면 일반 능력은 보존하면서 fine-tuning 공격자가 복원할 수 있는 subspace를 제한합니다.

한계·조건

평가 범위 — 두 가지 forget category (생물학적 위험 지식, 학대 성향)에 한정.
모델 — Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite — dense와 MoE 모두 포함.
코드 — 논문에 코드 공개 여부 명시되지 않음.

편집자 한 줄

representation-level 접근이 실제 배포 환경에서도 동일한 강건성을 보일지는 추가 연구가 필요해 보입니다.

#unlearning
#llm
#representation
#oxford
#safety

University of Oxford

원문 보기 →

옥스퍼드, LLM 지식 망각 깊이를 4~50배 개선한 RepSelect — fine-tuning 공격에도 강건

핵심 결론

방법

한계·조건

Comments