News·3시간 전
자연어 오토인코더를 속일 수 있을까? — Qwen 대상 적대적 테스트

LessWrong 에 게재된 실험 게시물입니다. 자연어 오토인코더(NLA)의 구성 요소인 Activation Verbalizer(AV)가 모델 내부 활성화를 설명하는 과정에서 쉽게 속을 수 있는지 테스트했습니다. 첫 번째 실험에서는 프리픽스 튜닝으로 AV가 반대 설명을 출력하도록 유도했고, 두 번째 실험에서는 Qwen 모델이 금기어 데이터셋의 비밀 단어를 학습하면서 AV가 이를 복원하지 못하도록 패널티를 추가했습니다. 결과적으로 AV는 비교적 쉽게 속아 넘어갔지만, 두 번째 실험에서는 모델이 금기어 게임 자체를 부분적으로 잊어버린 한계가 관찰되었습니다.
자연어 오토인코더(NLA)의 Activation Verbalizer(AV)가 적대적 공격에 얼마나 취약한지 검증한 실험 결과입니다.
골자
- 목적 — NLA의 AV가 모델 내부 활성화를 설명할 때 쉽게 속을 수 있는지 테스트.
- 방법 — 첫째, 프리픽스 튜닝으로 AV가 반대 설명을 출력하도록 최적화. 둘째, Qwen 모델에 금기어 데이터셋의 비밀 단어를 학습시키고 AV가 복원하지 못하도록 패널티 추가.
- 결과 — AV는 비교적 쉽게 속았으며, 두 번째 실험에서는 패널티가 효과적이었으나 모델이 금기어 게임을 부분적으로 망각한 한계가 있음.
배경·맥락
- NLA는 최근 블랙박스 기계 해석성 방법으로, 모델 내부를 자연어로 설명하는 두 가지 구성 요소 중 AV가 그 하나.
- 이전 연구 — Anthropic의 부富 추구 다중 선택 평가 데이터셋을 사용했으며, 이는 적대적 공격에 취약한 AV의 특성을 드러냄.
자금 용처·향후
- 코드 — 실험 코드는 GitHub에 공개됨.
- 논의 — EA Forum에도 크로스포스트되어 두 곳에서 논의가 진행 중.
편집자 한 줄
AV가 적대적 공격에 취약하다는 점은 기계 해석성 도구의 신뢰성에 중요한 시사점을 던집니다. 다만 두 번째 실험의 망각 문제는 패널티 설계의 미묘함을 보여주네요.
- #mechanistic-interpretability
- #natural-language-autoencoder
- #red-teaming
- #qwen
- #activation-verbalizer
LessWrong