News·어제
단일 레이어에서 유도 헤드가 가능하다는 연구 결과

LessWrong 게시글에서 단일 레이어 트랜스포머에서도 유도 헤드(induction heads)가 가능하다는 연구 결과를 발표했습니다. 기존에는 다중 레이어가 필요하다고 알려졌으나, 저자들은 구체적인 증명과 실험을 통해 이를 반박합니다. 이 연구는 주의 메커니즘의 이론적 이해에 중요한 함의를 지닙니다.
단일 레이어 트랜스포머에서 유도 헤드가 가능하다는 연구가 LessWrong에 게재되었습니다.
골자
- 기존에는 유도 헤드가 최소 2개 레이어에서만 가능하다고 알려져 있었습니다.
- 저자들은 단일 레이어에서도 QK 및 OV 회로를 적절히 구성하면 유도 헤드가 작동함을 보였습니다.
- 이 결과는 트랜스포머의 표현력에 대한 기존 가정을 재고하게 만듭니다.
배경·맥락
- 유도 헤드는 이전 토큰의 패턴을 복사하여 다음 토큰을 예측하는 메커니즘으로, 주로 중간 레이어에서 발견됩니다.
- 기존 연구는 '복사-이동' 과정이 두 레이어를 필요로 한다고 주장했습니다.
- 저자들은 단일 레이어에서도 동일한 기능을 구현할 수 있는 구체적인 가중치 구성을 제시했습니다.
편집자 한 줄
이론적으로는 가능하지만, 실제 학습된 모델에서 자연스럽게 발생하는지는 추가 연구가 필요해 보입니다.
- #induction-heads
- #transformer
- #mechanistic-interpretability
- #lesswrong
LessWrong