News·3시간 전
깊은 MLP에서 학습된 비밀 행동, 입력 최적화로 추출 어려워
LessWrong 에 올라온 연구에 따르면, 깊은 MLP가 하드 네거티브 조건에서 비밀 문자열을 기억하도록 훈련되면, 입력 최적화 방식으로는 거의 추출이 불가능해집니다. 3층 MLP에서 16개 중 0개만 복구되었으며, 학습된 가중치 판독기조차 64비트에서 1.82/16에 그쳤습니다. 이는 해석 가능성 벤치마크로 제안됩니다.
깊은 MLP가 단순한 기억 훈련만으로도 입력 최적화 기반의 비밀 추출을 거의 불가능하게 만든다는 연구 결과가 나왔습니다.
골자
- 실험 설정 — 1~3층 MLP를 16개의 비밀 이진 문자열(34/48/64비트)에 대한 멤버십 분류기로 훈련. 균형 조건과 하드 네거티브 조건(비밀과 유사한 음성) 비교.
- 주요 발견 — 하드 네거티브 + 2층 이상에서 입력 최적화(GCG 등)로 복구된 비밀은 0/16. 균형 조건에서는 9.5/16 이상.
- 학습된 판독기 — 트랜스포머 기반 가중치 판독기는 64비트 3층에서 1.82/16(상위 16)으로 입력 최적화보다 나았지만, 여전히 미미.
배경·맥락
- 이 연구는 '나쁜 맥락 유도(Eliciting bad contexts)' 문제의 장난감 버전으로, LLM의 숨겨진 행동을 추출하는 어려움을 탐구.
- 일반적인 입력 최적화 알고리즘은 NP-hard 문제에 직면할 수 있지만, 이 실험은 단순한 MLP에서도 실용적 추출이 어려움을 보여줌.
자금 용처·향후
- 벤치마크 제안 — 이 설정은 해석 가능성 연구를 위한 벤치마크로 사용될 수 있으며, 추출보다는 훈련 과정에 접근해 일반화 방식을 이해하는 프레이밍이 더 적합.
편집자 한 줄
단순한 MLP에서도 의도적인 난독화 없이 비밀을 숨길 수 있다는 점이 흥미롭습니다. 해석 가능성 커뮤니티의 다음 도전 과제가 될 만합니다.
- #mechanistic-interpretability
- #mlp
- #secret-extraction
- #benchmark
- #lesswrong
LessWrong