Papers·1개월 전

SAE feature stability — 안정 feature 가 재구성·예측 신호를 주로 담당, 불안정 feature 는 저차원 부분공간에서 재현 가능

SAE feature 의 재현성(reproducibility)을 대규모로 분석한 연구. 독립적으로 학습된 SAE 간에 유사한 feature 가 나타날 확률을 per-feature 신호로 측정했는데, 안정(stable) feature 가 재구성 손실과 예측 성능의 대부분을 설명하는 반면 불안정(unstable) feature 는 marginal impact 가 약하고 저빈도 표면 형태에 편향되어 있었습니다. 흥미롭게도 불안정 feature 는 개별적으로는 재현 불가능하지만 저차원 부분공간에서는 재현 가능한 구조를 보여, seed 의존성이 순수 노이즈보다는 공유 활성화 공간 내의 basis ambiguity 에 기인함을 시사합니다.

SAE feature 의 재현성을 대규모로 분석한 연구 — 안정 feature 가 재구성·예측 신호를 주로 담당하고, 불안정 feature 는 저차원 부분공간에서 재현 가능한 구조를 가집니다.

핵심 결론

태스크 — SAE feature 의 재현성(reproducibility)을 per-feature 확률로 정량화.
결과 — 안정 feature 가 재구성 손실과 prediction-relevant signal 의 대부분을 차지.
불안정 feature — 개별 재현 불가능하지만 저차원 부분공간에서는 재현 가능 — basis ambiguity 의 증거.

방법

측정 — 각 SAE feature 에 대해 독립 학습된 SAE 간 유사 feature 등장 확률을 추정.
실험 규모 — seeds, 모델, layer, dictionary size, SAE variant 를 가로지른 대규모 연구.
통제 실험 — 저차원 ground-truth feature 를 가진 synthetic model 로 mechanism 을 명시적으로 재현.

한계·조건

벤치마크 — 특정 모델·데이터셋에 국한 — 범용성은 추가 검증 필요.
코드 — 코드 공개 여부는 abstract 에 명시되지 않음.

편집자 한 줄

불안정 feature 가 단순한 noise 가 아니라 reproducible subspace 를 형성한다는 점은 SAE 기반 해석의 신뢰성을 높이는 방향으로 이해할 만합니다.

#sparse-autoencoders
#interpretability
#feature-stability
#mechanistic-interpretability

T-Tech

원문 보기 →

SAE feature stability — 안정 feature 가 재구성·예측 신호를 주로 담당, 불안정 feature 는 저차원 부분공간에서 재현 가능

핵심 결론

방법

한계·조건

Comments