← Back to feed
News·3시간 전

트랜스포머 활성화의 준안정 상태 분석 — 이론과 실제의 차이

트랜스포머 활성화의 준안정 상태 분석 — 이론과 실제의 차이

LessWrong 에 게재된 시리즈 첫 글에서, Geshkovski et al. 의 주의집중 동역학 이론이 실제 훈련된 트랜스포머에서 얼마나 유효한지 실험했습니다. 이론이 예측한 토큰 클러스터링과 준안정 상태는 모든 모델에서 확인됐지만, 에너지 단조성은 전혀 성립하지 않았습니다. 붕괴 속도는 깊이나 폭이 아닌 값 행렬(value matrix)에 의해 결정된다는 점도 발견했습니다.

이론이 예측한 준안정 토큰 클러스터는 실제 모델에서도 존재하지만, 그 메커니즘은 다릅니다.

골자

  • 이론Geshkovski et al. 은 Q, K, V 가 항등행렬일 때 주의집중을 구 위의 동역학계로 모델링, 토큰이 준안정적으로 군집화된다는 것을 증명했습니다.
  • 실험실제 훈련된 트랜스포머에서 이 예측을 검증한 결과, 토큰 클러스터링과 준안정 고원(plateau)은 모든 모델에서 확인됐습니다.
  • 위반그러나 에너지 단조성은 모든 모델에서 위반됐고, 붕괴 속도는 값 행렬에 의해 결정됐습니다.

배경·맥락

  • 이 시퀀스는 약 10개 포스트로 구성되며, 각 포스트는 GitHub 저장소의 실험 단계와 연결됩니다.
  • 원 논문Geshkovski et al. 의 이론은 주의집중이 두 가지 시간 척도(빠른 형성, 느린 병합)를 가진 준안정 구조를 만든다고 예측합니다.
  • 확인된 예측토큰 표현의 층간 클러스터링, 준안정 고원의 존재, 두 시간 척도의 분리 — 모두 실제 모델에서 확인됐습니다.

자금 용처·향후

  • 이 시리즈는 위반된 예측(에너지 단조성)을 추적하여 값 행렬의 메커니즘을 밝히는 데 초점을 맞출 예정입니다.
  • GitHub모든 코드는 공개 저장소에서 단계별로 제공됩니다.
  • YouTube원 논문에 대한 영문 설명 영상도 함께 제공됩니다.

편집자 한 줄

이론과 실제의 차이를 정밀하게 추적한 점이 인상적입니다. 값 행렬의 역할을 밝히는 후속 포스트가 기대됩니다.

  • #transformer
  • #attention
  • #metastability
  • #theory
  • #empirical
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —