Papers·1개월 전

Transformer 은닉 상태의 표준 기저가 이미 feature basis — 7개 모델에서 sign 기반 해석 검증

Transformer 은닉 상태의 표준 기저(standard basis)가 학습 없이도 feature basis로 동작함을 7개 모델(언어, 비전, 오디오)에서 입증했습니다. 각 차원의 부호(+/-1)가 의미를, 크기가 신뢰도를 나타내는 독립 이진 레지스터 역할을 하며, feature는 일관된 부호 패턴을 가진 차원의 부분집합으로 정의됩니다. 단일 토큰 캐시(문맥·레이블 없이)로 175개 카테고리를 AUC 0.97-0.99로 탐지했고, 학습된 probe는 +0.018 AUC만 추가됩니다. 한계로는 각 차원이 인코딩하는 내용을 카탈로그화하는 작업이 남아 있습니다.

Transformer의 은닉 상태 표준 기저가 이미 feature를 인코딩하고 있다는 주장을 7개 모델에서 실험적으로 검증했습니다.

핵심 결론

태스크 — 표준 기저 차원의 부호 패턴만으로 feature 탐지가 가능하며, 학습된 probe 대비 AUC 차이가 0.018에 불과합니다.
모델 범위 — 언어(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), 비전(DINOv2, ViT-Base), 오디오(AST) 등 7개 모델에서 일관된 결과를 보입니다.

방법

Bag of Dims — 각 차원을 독립 이진 레지스터로 간주, 부호 일치를 세는 Hamming scoring으로 feature를 읽습니다. 회전(rotation)이 필요 없습니다.
인과적 검증 — Live forward pass 중 feature의 부호를 뒤집으면 해당 개념이 억제되며, 이는 무작위 가중치에서는 재현되지 않습니다.
차원 간 상호정보는 0.006 bits 미만으로 독립성이 유지됩니다.

한계·조건

공개 문제 — 각 차원이 무엇을 인코딩하는지 카탈로그화하는 작업이 남았으며, 이는 향후 연구 과제입니다.
단일 토큰 캐시(문맥·레이블 없음) 기반이므로, 문맥 의존적 feature는 포착하지 못할 수 있습니다.

편집자 한 줄

표준 기저가 이미 feature basis라는 점은 해석 가능성 연구의 방향을 단순화할 수 있는 흥미로운 발견입니다.

#transformer
#interpretability
#feature-basis
#standard-basis
#huggingface

Varun Reddy Nalagatla

원문 보기 →

Transformer 은닉 상태의 표준 기저가 이미 feature basis — 7개 모델에서 sign 기반 해석 검증

핵심 결론

방법

한계·조건

Comments