News·1주 전
Llama-3-8b 순환 구조 시각화 도구 공개 — Goodfire 연구에서 영감

LessWrong 에 연구자가 Llama-3-8b 모델의 활성화 공간에서 순환·부드러운 기하 구조를 시각화하는 웹 도구를 공개했습니다. 요일·계절 같은 순서 개념이 원형 구조를, 온도·나이 같은 선형 개념이 호(arc) 형태를 보인다는 Goodfire 의 최근 연구를 직접 구현한 셈입니다. 기존 선형 표현 가설(LRH)만으로는 설명되지 않는 구조를 탐색하기 위한 도구로, 사용자가 임의 개념을 선택해 특정 레이어의 활성화를 3D 로 볼 수 있습니다.
Llama-3-8b 의 활성화 공간에서 순환·부드러운 구조를 시각화하는 웹 도구가 LessWrong 에 공개됐습니다.
골자
- 도구 — neural-geometry.vercel.app — 임의 개념에 대해 Llama-3-8b 의 특정 레이어 활성화를 3D 로 시각화.
- 구조 — 요일·계절 같은 순서 개념은 원형(cyclical), 온도·나이 같은 선형 개념은 호(arc) 형태.
- 영감 — Goodfire 의 최근 연구(ordered concepts 의 smooth geometric structures) 를 직접 구현.
배경·맥락
- 기계적 해석성(mechanistic interpretability) 은 전통적으로 선형 방향 벡터로 모델을 조종해 왔습니다(Linear Representation Hypothesis).
- 한계 — 선형 활성화 조종은 스칼라 크기가 커지면 모델이 깨져 무의미한 텍스트를 생성하는 문제가 있습니다.
- Goodfire 의 연구는 선형 가설만으로는 설명되지 않는 부드러운 기하 구조가 존재함을 보여줍니다.
자금 용처·향후
- 추출 — 도구는 'What day comes 3 days after Tuesday?' 같은 프롬프트로 활성화 벡터를 추출, 정답 레이블과 매칭.
- 공개 — 소스는 LessWrong 게시글에 링크, 누구나 사용 가능.
편집자 한 줄
Goodfire 의 논문이 나온 지 얼마 안 된 시점에 이를 바로 구현한 공개 도구가 나온 점이 인상적입니다. LRH 의 한계를 넘어서는 해석성 연구의 흐름을 체험해볼 만합니다.
- #llama
- #mechanistic-interpretability
- #visualization
- #goodfire
- #lesswrong
LessWrong