← Back to feed
Papers·2일 전

Transformer 은닉 상태의 표준 기저가 이미 feature basis — 7개 모델에서 sign 기반 해석 검증

Transformer 은닉 상태의 표준 기저가 이미 feature basis — 7개 모델에서 sign 기반 해석 검증

Transformer 은닉 상태의 표준 기저(standard basis)가 학습 없이도 feature basis로 동작함을 7개 모델(언어, 비전, 오디오)에서 입증했습니다. 각 차원의 부호(+/-1)가 의미를, 크기가 신뢰도를 나타내는 독립 이진 레지스터 역할을 하며, feature는 일관된 부호 패턴을 가진 차원의 부분집합으로 정의됩니다. 단일 토큰 캐시(문맥·레이블 없이)로 175개 카테고리를 AUC 0.97-0.99로 탐지했고, 학습된 probe는 +0.018 AUC만 추가됩니다. 한계로는 각 차원이 인코딩하는 내용을 카탈로그화하는 작업이 남아 있습니다.

Transformer의 은닉 상태 표준 기저가 이미 feature를 인코딩하고 있다는 주장을 7개 모델에서 실험적으로 검증했습니다.

핵심 결론

  • 태스크표준 기저 차원의 부호 패턴만으로 feature 탐지가 가능하며, 학습된 probe 대비 AUC 차이가 0.018에 불과합니다.
  • 모델 범위언어(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), 비전(DINOv2, ViT-Base), 오디오(AST) 등 7개 모델에서 일관된 결과를 보입니다.

방법

  • Bag of Dims각 차원을 독립 이진 레지스터로 간주, 부호 일치를 세는 Hamming scoring으로 feature를 읽습니다. 회전(rotation)이 필요 없습니다.
  • 인과적 검증Live forward pass 중 feature의 부호를 뒤집으면 해당 개념이 억제되며, 이는 무작위 가중치에서는 재현되지 않습니다.
  • 차원 간 상호정보는 0.006 bits 미만으로 독립성이 유지됩니다.

한계·조건

  • 공개 문제각 차원이 무엇을 인코딩하는지 카탈로그화하는 작업이 남았으며, 이는 향후 연구 과제입니다.
  • 단일 토큰 캐시(문맥·레이블 없음) 기반이므로, 문맥 의존적 feature는 포착하지 못할 수 있습니다.

편집자 한 줄

표준 기저가 이미 feature basis라는 점은 해석 가능성 연구의 방향을 단순화할 수 있는 흥미로운 발견입니다.

  • #transformer
  • #interpretability
  • #feature-basis
  • #standard-basis
  • #huggingface
Varun Reddy Nalagatla
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —