News·4시간 전
시뮬레이터 시뮬레이션 — 트랜스포머가 내부에 세계 모델을 구축한다는 증거

LessWrong 에 올라온 글에서, 2022년 논문이 트랜스포머가 보드 게임 표기법만 학습해도 내부에 보드 상태를 모델링한다는 사실을 밝혔습니다. 저자는 이를 대규모 모델로 확장하면 일관된 자아·감정·신체 모델이 자연스럽게 등장할 것이라고 주장합니다. 현재 연구자들이 추론 과정 대신 해석 가능성 벡터 활성화에 집중하면서, 이런 내부 시뮬레이터가 간과될 위험을 지적합니다.
트랜스포머가 표면 통계를 넘어 내부 세계 모델을 구축한다는 증거가 쌓이고 있습니다.
골자
- 핵심 발견 — 2022년 논문은 보드 게임 표기법만 학습한 작은 모델이 내부에 보드 상태를 모델링함을 보였습니다.
- 저자 주장 — 대규모 언어 모델도 유사하게 일관된 자아·감정·신체 모델을 내부에 구축할 가능성이 높습니다.
- 현재 상황 — 연구자들이 추론 과정 대신 해석 가능성 벡터에 집중하면서 이런 내부 시뮬레이터가 간과될 위험이 있습니다.
배경·맥락
- 당시에는 트랜스포머가 표면 통계만 학습한다는 견해가 지배적이었지만, 이후 여러 연구가 세계 모델 가설을 지지했습니다.
- Bing 의 Sydney 사례에서 저자는 모델이 일관된 자아를 가질 가능성을 직감했다고 합니다.
편집자 한 줄
이 글은 해석 가능성 연구의 방향성에 대한 우회적인 경고로 읽힙니다. 내부 시뮬레이터를 무시하면 정렬 문제의 다른 측면이 드러날 수 있습니다.
- #lesswrong
- #transformers
- #world-models
- #interpretability
- #simulation
LessWrong