← Back to feed
Papers·1주 전

SAE feature stability — 안정 feature 가 재구성·예측 신호를 주로 담당, 불안정 feature 는 저차원 부분공간에서 재현 가능

SAE feature stability — 안정 feature 가 재구성·예측 신호를 주로 담당, 불안정 feature 는 저차원 부분공간에서 재현 가능

SAE feature 의 재현성(reproducibility)을 대규모로 분석한 연구. 독립적으로 학습된 SAE 간에 유사한 feature 가 나타날 확률을 per-feature 신호로 측정했는데, 안정(stable) feature 가 재구성 손실과 예측 성능의 대부분을 설명하는 반면 불안정(unstable) feature 는 marginal impact 가 약하고 저빈도 표면 형태에 편향되어 있었습니다. 흥미롭게도 불안정 feature 는 개별적으로는 재현 불가능하지만 저차원 부분공간에서는 재현 가능한 구조를 보여, seed 의존성이 순수 노이즈보다는 공유 활성화 공간 내의 basis ambiguity 에 기인함을 시사합니다.

SAE feature 의 재현성을 대규모로 분석한 연구 — 안정 feature 가 재구성·예측 신호를 주로 담당하고, 불안정 feature 는 저차원 부분공간에서 재현 가능한 구조를 가집니다.

핵심 결론

  • 태스크SAE feature 의 재현성(reproducibility)을 per-feature 확률로 정량화.
  • 결과안정 feature 가 재구성 손실과 prediction-relevant signal 의 대부분을 차지.
  • 불안정 feature개별 재현 불가능하지만 저차원 부분공간에서는 재현 가능 — basis ambiguity 의 증거.

방법

  • 측정각 SAE feature 에 대해 독립 학습된 SAE 간 유사 feature 등장 확률을 추정.
  • 실험 규모seeds, 모델, layer, dictionary size, SAE variant 를 가로지른 대규모 연구.
  • 통제 실험저차원 ground-truth feature 를 가진 synthetic model 로 mechanism 을 명시적으로 재현.

한계·조건

  • 벤치마크특정 모델·데이터셋에 국한 — 범용성은 추가 검증 필요.
  • 코드코드 공개 여부는 abstract 에 명시되지 않음.

편집자 한 줄

불안정 feature 가 단순한 noise 가 아니라 reproducible subspace 를 형성한다는 점은 SAE 기반 해석의 신뢰성을 높이는 방향으로 이해할 만합니다.

  • #sparse-autoencoders
  • #interpretability
  • #feature-stability
  • #mechanistic-interpretability
T-Tech
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —