News·1개월 전

SAE 특성은 보편적이지만, 알 수 없는 무작위 회전까지만

동일한 아키텍처의 서로 다른 트랜스포머 모델이 같은 함수를 학습하지만, 잔차 스트림 활성화 표현은 직교군에서 균일하게 추출된 회전만큼 차이가 납니다. SAE의 디코더 열 코사인 유사도는 0.9 이상으로 '동일한 특성'을 시사하지만, 다른 모델의 활성화에 SAE를 적용하면 재구성이 완전히 실패합니다(음의 설명 분산). 이 문제는 직교 Procrustes 변환 한 번으로 해결됩니다.

동일한 아키텍처의 트랜스포머가 같은 함수를 학습해도 잔차 스트림의 표현은 무작위 회전만큼 달라, SAE의 교차 모델 적용이 실패합니다.

골자

현상 — 서로 다른 시드로 학습한 동일 아키텍처의 트랜스포머는 같은 함수를 계산하지만, 잔차 스트림 활성화는 직교군 SO(d)에서 균일하게 추출된 회전만큼 차이가 납니다. 이를 다형성(polymorphism)이라고 부릅니다.
SAE 유사도 — 교차 모델 디코더 열 코사인 유사도는 0.9 이상으로 '동일한 특성'을 시사하지만, 이는 착시입니다.
재구성 실패 — 한 모델의 SAE를 다른 모델의 활성화에 적용하면 재구성이 완전히 실패합니다. 설명 분산이 음수가 되어, 활성화 평균을 예측하는 것보다 나쁩니다.

배경·맥락

기존 SAE 보편성 연구는 디코더 열 코사인 유사도가 높다는 점을 근거로 '같은 특성'을 학습했다고 주장했지만, 인코더의 교차 모델 적용 실패는 이 해석이 불완전함을 보여줍니다.
실험 규모 — 104k 파라미터 토이 모델(모든 가중치를 직접 검사 가능)과 9개의 독립적으로 학습된 Pythia-70m 시드( The Pile 데이터셋)에서 결과가 일관되게 재현되었습니다. 10B+ 규모는 아직 테스트되지 않았습니다.

해결책·향후

해결 — 직교 Procrustes 변환(행렬 곱셈 한 번)으로 회전을 정렬하면 재구성이 정상화됩니다.
의미 — SAE 특성은 회전 불변성이 아니라 회전 공변성임을 시사합니다. 즉, 특성 자체는 보편적이지만 표현 기저가 무작위 회전되어 있습니다.
다음 — 프론티어 규모(10B+)에서의 검증과, 회전의 무작위성이 학습 과정에서 어떻게 발생하는지에 대한 이론적 분석이 필요합니다.

편집자 한 줄

SAE 보편성 연구에 중요한 경고를 던지는 결과입니다. 디코더 유사도만으로 '특성 공유'를 단정하기 전에, 인코더의 교차 모델 재구성 성능을 반드시 확인해야 한다는 점을 명확히 보여줍니다.

#sae
#universality
#polymorphism
#orthogonal-procrustes
#interpretability

LessWrong

원문 보기 →

SAE 특성은 보편적이지만, 알 수 없는 무작위 회전까지만

골자

배경·맥락

해결책·향후

Comments