News·1개월 전

Belief Manifolds: LLM 내부 표현의 기하학적 이해와 조종

BlueDot Technical AI Safety 프로젝트의 일환으로, Goodfire 팀의 연구 'The Shape of Beliefs'를 재현했습니다. 이 연구는 LLM의 내부 표현이 단순한 선형 방향이 아닌 곡률을 가진 저차원 다양체(manifold)를 이룬다는 '기하학적 전환'을 보여줍니다. 이러한 기하학을 존중하는 개입(steering)이 더 효과적일 수 있음을 시사합니다.

LLM의 내부 표현을 더 깊이 이해하는 것이 AI 안전에 핵심이라는 믿음에서, Goodfire 팀의 다양체 기반 해석 연구를 재현했습니다.

골자

재현 대상 — Sarfati et al. (2026)의 'The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models’ Posteriors'를 재현했습니다.
핵심 주장 — LLM의 내부 표현은 단순한 선형 방향(linear representation hypothesis)이 아니라, 곡률을 가진 저차원 다양체(manifold)로 이해해야 한다는 '기하학적 전환'을 제안합니다.
의의 — 이러한 기하학을 존중하는 개입(steering)이 더 효과적일 수 있으며, 이는 기계적 해석 가능성(mechanistic interpretability)의 새로운 패러다임입니다.

배경·맥락

선형 가설 — 기존의 선형 표현 가설(LRH)은 개념이 활성화 공간의 선형 방향으로 표현된다고 가정했으며, 이는 많은 성공을 거두었습니다.
기하학적 전환 — 최근 연구들은 활성화 공간에 내장된 저차원 다양체를 연구하며, 비유클리드 기하학(곡률)을 고려해야 한다는 방향으로 나아가고 있습니다.
신경과학과의 평행 — 이러한 전환은 계산 신경과학에서 지난 수십 년간 일어난 기하학적 전환과 유사한 궤적을 보입니다.

자금 용처·향후

프로젝트 목적 — BlueDot Technical AI Safety 프로젝트의 일환으로, 중장기 AI 안전을 위해 내부 표현 이해를 심화하는 것이 목표입니다.
코드 공개 — 재현에 사용된 코드는 공개되어 있습니다.

편집자 한 줄

기계적 해석 가능성 분야에서 '기하학적 전환'이 실제로 중요한 패러다임 변화인지, 아니면 기존 선형 방법의 확장에 불과한지는 좀 더 지켜볼 필요가 있습니다.

#mechanistic-interpretability
#llm-geometry
#belief-manifolds
#goodfire
#blue-dot

LessWrong

원문 보기 →

Belief Manifolds: LLM 내부 표현의 기하학적 이해와 조종

골자

배경·맥락

자금 용처·향후

Comments