News·4시간 전
잔차 스트림, 시간의 기하학을 가진다 — 정보가 저차원 부분공간에 집중

LessWrong 에 게재된 예비 실험 결과에 따르면, 트랜스포머의 잔차 스트림이 여러 토큰에 걸친 맥락 정보를 놀랍도록 컴팩트하게 유지합니다. 정보가 활성화 공간 전체에 퍼지지 않고 저차원 부분공간에 집중되며, 이 부분공간을 투영해 추출할 수 있다는 점이 핵심입니다. 연구자는 더 큰 실험 전에 의견을 수집하기 위해 조기 공개했습니다.
잔차 스트림이 시간 축을 따라 정보를 저장하는 방식에 대한 실험 결과가 공개되었습니다.
골자
- 핵심 발견 — 트랜스포머의 잔차 스트림은 여러 토큰에 걸친 맥락 정보를 저차원 부분공간에 집중시켜 저장합니다.
- 의미 — 정보가 활성화 공간 전체에 퍼지지 않아, 투영을 통해 추출하거나 개입할 수 있습니다.
- 상태 — 예비 실험 결과이며, 연구자는 더 큰 실험 전에 의견을 수집 중입니다.
배경·맥락
- 잔차 스트림은 트랜스포머의 '작업 기억'에 비유되며, 각 토큰 위치에서 고차원 벡터가 attention과 MLP 델타를 누적합니다.
- 기존 연구는 주로 깊이-시간 축(레이어 간) 변화에 집중했지만, 이번 실험은 시퀀스-시간 축(토큰 간) 정보 추적을 탐구합니다.
편집자 한 줄
메커니즘 해석 커뮤니티에서 잔차 스트림의 시간적 구조에 대한 관심이 다시 높아지는 지점입니다.
- #transformer-interpretability
- #residual-stream
- #mechanistic-interpretability
- #lesswrong
LessWrong