News·4시간 전
SAE 특징 설명, 다른 모델의 Activation Verbalizer 로도 가능

연구자가 Qwen2.5-7B-IT 의 SAE 특징 방향을 Gemma-3-27B-IT 의 잔차 스트림으로 매핑한 후, Gemma 전용 Activation Verbalizer 로 설명을 생성했습니다. Qwen AV 설명과의 코사인 유사도를 비교한 결과, 무작위 방향 대비 평균 +0.21 의 특이적 향상을 보였습니다. 배경 세척(background washout) 기법으로 설명 품질을 개선할 수 있다는 제안도 포함됐습니다.
SAE 특징 설명 도구가 훈련된 모델·레이어에만 작동한다는 가정을 깨는 실험 결과가 나왔습니다.
골자
- 매핑 — Qwen2.5-7B-IT layer 20 → Gemma-3-27B-IT layer 41 로 ridge-regression 맵을 피팅.
- 설명 비교 — Qwen SAE 디코더 방향 45개를 Gemma 공간으로 매핑 후 Gemma AV 로 설명 생성.
- 결과 — Gemma AV 설명이 Qwen AV 설명과 무작위 방향 대비 평균 +0.21 높은 코사인 유사도를 기록.
배경·맥락
- NLA Activation Verbalizer 는 특정 모델·레이어에 최적화되어 있어 다른 모델에는 적용 불가능하다는 게 일반적 가정.
- 배경 세척 — 제안된 background washout 은 SAE 디코더 설명에서 모델 특유의 잡음을 줄여 설명 품질을 높이는 기법.
자금 용처·향후
- 이 결과가 일반화된다면, AV 를 여러 모델에 재사용하거나 교차 모델 해석 파이프라인을 구축할 수 있습니다.
편집자 한 줄
비용이 큰 AV 훈련을 줄일 가능성을 열었다는 점에서 주목할 만한 실험입니다.
- #sae
- #activation-verbalizer
- #mechanistic-interpretability
- #cross-model
LessWrong