Papers·1개월 전

5WBENCH로 밝힌 기계 망각의 Why 편향 — MAAT가 Why 유형 인과 지식에서 망각-유지 Pareto 개선

기존 기계 망각 벤치마크(CounterFact, TOFU 등)에서 Why 유형(인과·관계 질문) 비율이 0.06%~1.3%에 불과해, 인과 지식 망각 실패를 감춘다는 문제를 5WBENCH(5W 각 1,000개 샘플)로 정량화했습니다. Why 유형은 다중 추론 체인(44%)과 긴 답변(40.1 토큰)으로 인해 망각이 특히 어려우며, 기존 방법은 망각과 유지 사이에서 균형을 잡지 못했습니다. 저자들은 LoRA 어댑터에 gradient-projected ascent, SVD rank pruning, task vector negation, hybrid KL-hidden-state retain repair를 결합한 3단계 프레임워크 MAAT를 제안, Why 유형에서 망각-유지 Pareto frontier의 새로운 지점을 달성했습니다. 코드는 공개되었습니다.

기계 망각 평가가 Why 유형(인과·관계 질문)을 거의 포함하지 않아, 인과 지식 망각 실패가 성능 지표에서 가려지고 있습니다.

핵심 결론

Why 편향 — CounterFact에서 Why 비율 0.06%, ZSRE 0.6%, TOFU/MUSE/WMDP-Cyber 1.3% 미만으로, 인과 지식 망각 실패가 aggregate 점수에서 드러나지 않습니다.
5WBENCH — 5W 각 1,000개 샘플로 균형 잡힌 5,000개 벤치마크를 구축, Why 유형 망각 실패를 처음으로 정량화했습니다.
MAAT — LoRA 어댑터 기반 3단계 프레임워크로 Why 유형에서 망각과 유지를 동시에 달성한 첫 방법입니다.

방법

Why 어려움 — Why 유형의 44%가 다중 추론 체인을 포함하며, 답변 길이가 평균 40.1 토큰으로 gradient dilution이 발생합니다.
MAAT 3단계 — 1) gradient-projected ascent로 망각 방향 학습, 2) SVD rank-dimension pruning으로 망각 파라미터 압축, 3) task vector negation + hybrid KL-hidden-state retain repair로 유지 성능 복원.
LoRA 기반 — 전체 파라미터가 아닌 LoRA 어댑터 가중치에만 적용하여 효율적입니다.

한계·조건

벤치 범위 — 5WBENCH는 5W 범주에 국한되며, 실제 분포에서의 일반화는 추가 검증이 필요합니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

Why 유형의 구조적 어려움을 데이터 수준에서 밝히고, 이에 특화된 방법을 제시한 점이 인상적입니다. 다만 LoRA 기반이므로 full fine-tuning 환경에서의 적용은 추가 연구가 필요해 보입니다.

#machine-unlearning
#benchmark
#lora
#causal-knowledge
#5wbench

Suryash Yagnik

원문 보기 →

5WBENCH로 밝힌 기계 망각의 Why 편향 — MAAT가 Why 유형 인과 지식에서 망각-유지 Pareto 개선

핵심 결론

방법

한계·조건

Comments