Papers·1개월 전

Gemma 3 계열에서 deception 탐지 probe 의 취약성과 복원 — style-augmented probe 로 AUROC 0.98 회복

이 논문은 LLM activations 에 학습된 linear probe 가 분포 이동 아래에서 붕괴하는 원인을 체계적으로 분석합니다. Gemma 3 (1B-27B) 모델군에서 4가지 가설(단일 선형 방향, 다차원 부분공간, 볼록 원뿔 껍질, 엔트로피 프록시)을 검증한 결과, 단일 방향 가설은 기각되고(k=1 AUROC 0.61-0.80) 엔트로피 프록시 가설도 기각됩니다. 반면, style-augmented probe 는 보지 못한 스타일에서도 평균 AUROC 0.979-0.983 을 달성하며, probe 의 취약성이 아키텍처 한계가 아니라 훈련 분포의 협소함에서 비롯됨을 보여줍니다. 다만 실험은 Gemma 3 계열에 한정되었고, 다른 모델군에서의 일반화는 추가 검증이 필요합니다.

LLM activations 에 학습된 linear probe 가 분포 이동 아래에서 붕괴하는 원인을 Gemma 3 모델군으로 체계적으로 진단한 논문입니다.

핵심 결론

성능 — Clean 데이터에서 AUROC >=0.998 에 달하지만, 스타일 이동 시 붕괴합니다.
회복 — Style-augmented probe 는 보지 못한 스타일에서도 AUROC 0.979-0.983 으로 거의 완벽히 회복합니다.
가설 검증 — 단일 선형 방향 가설(k=1 AUROC 0.61-0.80)과 엔트로피 프록시 가설(|rho|<=0.454) 모두 기각되었습니다.

방법

실험 설계 — Gemma 3 1B/4B/12B/27B 에 대해 8가지 스타일 이동, cross-domain 전이 행렬, 다차원 probe, 엔트로피 잔차화 테스트를 수행했습니다.
가설 — 네 가지 가설을 검증: 단일 선형 방향, 다차원 부분공간, 볼록 원뿔 껍질, 엔트로피 프록시.
핵심 발견 — Deception 은 유의미한 선형 부분공간을 형성하지 않지만(k*=0), k>=5 의 다차원 probe 가 분산된 sub-threshold feature 를 통해 신호를 복원합니다.

한계·조건

모델 범위 — Gemma 3 계열에 한정된 실험으로, 다른 모델군(Llama, Mistral 등)에서의 일반화는 추가 검증이 필요합니다.
스타일 다양성 — 8가지 스타일 이동은 제한적이며, 더 다양한 분포 이동에서도 style-augmented probe 가 유효할지는 미지수입니다.
코드 공개 — 논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

Probe 기반 탐지의 근본적인 취약성을 잘 짚으면서도, style augmentation 이라는 간단한 해법으로 복원 가능함을 보여준 점이 인상적입니다. 다만 실험 스케일이 Gemma 계열에 국한된 점은 아쉽습니다.

#deception-detection
#linear-probe
#gemma
#distribution-shift
#interpretability

Sachin Kumar

원문 보기 →

Gemma 3 계열에서 deception 탐지 probe 의 취약성과 복원 — style-augmented probe 로 AUROC 0.98 회복

핵심 결론

방법

한계·조건

Comments