Papers·1주 전
LLM 언러닝 평가 메트릭 UDS — activation patching 으로 지식 삭제 깊이를 0-1 척도로 측정, 150개 모델 메타 평가에서 최고 신뢰도

LLM 언러닝(unlearning) 평가를 위해 activation patching 기반의 Unlearning Depth Score(UDS) 메트릭이 제안됐습니다. UDS는 retain 모델에서 타겟 지식을 인코딩하는 레이어를 식별한 뒤, 언러닝된 모델에서 해당 지식이 얼마나 지워졌는지를 0-1 척도로 정량화합니다. 8가지 방법으로 만든 150개 언러닝 모델을 20개 메트릭으로 평가한 메타 평가에서 UDS가 가장 높은 신뢰도와 강건성을 보였습니다. 다만 화이트박스 메트릭 간 레이어 수준에서 불일치가 발생할 수 있고, 예시별로 삭제 깊이가 다르다는 점이 한계입니다.
기존 출력 기반 메트릭으로는 LLM 내부 표현에서 타겟 지식이 여전히 복구 가능한지 감지하기 어려운 문제를, activation patching 기반의 새로운 메트릭 UDS가 해결합니다.
핵심 결론
- 메트릭 — UDS는 activation patching을 통해 언러닝의 기계적 깊이를 0-1 척도로 정량화합니다.
- 메타 평가 — 8가지 방법, 150개 언러닝 모델, 20개 메트릭 비교에서 UDS가 가장 높은 faithfulness와 robustness를 기록했습니다.
방법
- 아이디어 — retain 모델에서 타겟 지식을 가장 많이 인코딩하는 레이어를 찾은 뒤, 언러닝 모델에서 해당 레이어의 activation을 patching하여 지식 잔존도를 측정합니다.
- 장점 — 보조 학습이나 데이터셋 특화 적응 없이 일반화 가능한 메트릭이라는 점이 기존 화이트박스 접근 대비 강점입니다.
한계·조건
- 불일치 — 화이트박스 메트릭 간 레이어 수준에서 의견이 갈릴 수 있으며, 예시별로 삭제 깊이가 달라 일관된 평가가 까다롭습니다.
- 코드 — 코드와 데이터는 GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
언러닝 평가의 표준이 될 가능성이 있는 접근입니다. 다만 실제 배포 시나리오에서의 효용성은 추가 검증이 필요해 보입니다.
- #llm
- #unlearning
- #evaluation
- #activation-patching
- #privacy
Jaeung Lee