← Back to feed
Papers·1주 전

옥스퍼드, LLM 지식 망각 깊이를 4~50배 개선한 RepSelect — fine-tuning 공격에도 강건

옥스퍼드, LLM 지식 망각 깊이를 4~50배 개선한 RepSelect — fine-tuning 공격에도 강건

옥스퍼드 대학 연구팀이 LLM이 특정 지식이나 가치를 깊이 잊게 하는 방법 RepSelect를 제안했습니다. 기존 망각 방법은 fine-tuning이나 few-shot prompting으로 쉽게 복원되는 표면적 망각에 그쳤는데, RepSelect는 forget-set 특화 representation을 분리해 망각 후 재학습 공격에도 4~50배 더 강한 내성을 보였습니다. 생물학적 위험 지식과 학대 성향 두 범주, Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite 등 네 모델 패밀리에서 검증했습니다.

옥스퍼드 대학 연구팀이 LLM 망각의 근본 문제를 지적하고, forget-set 특화 representation을 분리하는 RepSelect를 제안했습니다.

핵심 결론

  • 성능재학습 후 정답률 감소 폭이 가장 강한 baseline 대비 4~50배 큼.
  • 강건성few-shot prompting 공격에 거의 완벽하게 내성.
  • 일반 능력일반 성능 유지 — retain set 성능 저하 최소화.

방법

  • 핵심 아이디어기존 방법은 forget-set과 retain-set이 공유하는 representation을 타겟으로 해서 미세 조정으로 쉽게 복원됨.
  • RepSelect각 업데이트 전 weight gradient의 주성분을 제거해 forget-set에만 특화된 representation만 collapse.
  • 이렇게 하면 일반 능력은 보존하면서 fine-tuning 공격자가 복원할 수 있는 subspace를 제한합니다.

한계·조건

  • 평가 범위두 가지 forget category (생물학적 위험 지식, 학대 성향)에 한정.
  • 모델Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite — dense와 MoE 모두 포함.
  • 코드논문에 코드 공개 여부 명시되지 않음.

편집자 한 줄

representation-level 접근이 실제 배포 환경에서도 동일한 강건성을 보일지는 추가 연구가 필요해 보입니다.

  • #unlearning
  • #llm
  • #representation
  • #oxford
  • #safety
University of Oxford
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —