Papers·1개월 전

PropMe: 언어모델 기억 평가 — 적대적 공격과 일상 사용 간 기억 누출 격차

SDU 연구팀이 언어모델의 훈련 데이터 기억(memorization)을 평가하는 프레임워크 PropMe를 제안했습니다. 기존 평가는 모델이 강제로 데이터를 재현할 수 있는지(capability)에 집중했지만, PropMe는 일상적인 사용(propensity)에서 얼마나 누출되는지 측정합니다. Comma와 DFM Decoder를 Common Pile과 Dynaword 데이터셋으로 평가한 결과, 적대적 접두사 공격은 강한 기억 신호를 유발하지만 일반 프롬프트에서는 기억 점수가 낮았습니다. DFM Decoder는 Comma 대비 기억 능력과 성향이 모두 감소해, 지속적 사전학습이 기억을 줄일 수 있음을 확인했습니다.

SDU 연구팀이 언어모델의 훈련 데이터 기억을 일상적 사용 환경에서 평가하는 프레임워크 PropMe를 제안했습니다.

핵심 결론

capability vs propensity — 적대적 접두사 공격(prefix attack)은 강한 기억 신호를 유발하지만, 일반 프롬프트나 데이터셋 특화 프롬프트에서는 기억 점수가 낮아 두 평가 간 큰 격차가 있습니다.
모델 비교 — Comma에서 지속적 사전학습된 DFM Decoder는 Common Pile에 대한 기억 능력과 성향이 모두 감소했습니다.

방법

PropMe — 기존 기억 평가 함수를 propensity-aware 지표로 변환하는 변환 기법을 도입했습니다.
SimpleTrace — infini-gram 기반의 경량 추적 파이프라인으로, 생성 결과를 대규모 훈련 코퍼스에 결정론적으로 귀속시키고 축어적·근축어적·propensity 변환 지표를 계산합니다.

한계·조건

모델 — 평가는 Comma와 DFM Decoder 두 개의 완전 공개 모델에 한정됩니다.
데이터 — Common Pile과 Dynaword 두 데이터셋, 두 언어(영어·덴마크어)로 제한됩니다.
재현성 — 코드와 데이터셋은 공개 예정이며, 현재는 논문의 방법론만 공개되어 있습니다.

편집자 한 줄

기억 평가의 두 축(capability vs propensity)을 명확히 구분한 점이 실용적입니다. 특히 DFM Decoder의 기억 감소 결과는 지속적 사전학습의 규제 효과를 시사합니다.

#memorization
#evaluation
#propensity
#sdu

University of Southern Denmark (SDU)

원문 보기 →

PropMe: 언어모델 기억 평가 — 적대적 공격과 일상 사용 간 기억 누출 격차

핵심 결론

방법

한계·조건

Comments