Papers·2주 전
Activation steering 은 prompt 로 재현 불가 — Johns Hopkins, 수학적 증명과 세 모델 실험

Johns Hopkins 팀이 activation steering 으로 유도된 내부 상태를 어떤 텍스트 prompt 로도 재현할 수 없다는 사실을 수학적으로 증명하고 세 LLM(GPT-2, Llama-2, Pythia)에서 실험적으로 확인했습니다. Residual stream 이 discrete prompt 의 preimage 를 갖지 않는 manifold 로 밀려난다는 게 핵심 직관. 따라서 steering 의 성공을 prompt 기반 interpretability 나 취약성의 증거로 해석하는 걸 경계해야 하며, white-box 와 black-box 개입을 분리한 평가 프로토콜이 필요하다고 주장합니다.
- #activation-steering
- #interpretability
- #llm
- #johns-hopkins
Johns Hopkins University