Papers·1개월 전

단일층 트랜스포머, 로그 차원 임베딩으로 사실 기억 — MLP는 관계 조건부 선택기 역할

Shauli Ravfogel 연구는 트랜스포머가 사실 연상을 기억할 때 임베딩 차원이 사실 수에 대해 로그 스케일로 충분함을 증명합니다. 단일층 트랜스포머가 무작위 전단사를 암기하는 통제된 환경에서, 주체 임베딩이 속성 벡터의 선형 중첩을 인코딩하고 작은 MLP가 ReLU 게이팅을 통해 관련 속성을 추출하는 관계 조건부 선택기 역할을 한다는 이론적·실험적 결과를 제시합니다. 다중 홉 설정으로 확장해 사슬 추론 시 용량-깊이 트레이드오프를 보이며, 학습된 MLP가 제로샷으로 전이 가능한 일반적 선택 메커니즘을 학습함을 보입니다. 단, 이 결과는 통제된 합성 설정에 국한되며 실제 언어 모델로의 일반화는 추가 검증이 필요합니다.

#transformer
#memorization
#mlp
#geometric-embedding
#interpretability

Shauli Ravfogel

원문 보기 →

단일층 트랜스포머, 로그 차원 임베딩으로 사실 기억 — MLP는 관계 조건부 선택기 역할

Comments