News·5시간 전
Gemma-2-2B 내부에서 '교사 축' 발견 — RLHF는 교육 능력을 억누르지 않는다

LessWrong 에 게재된 분석에 따르면, Gemma-2-2B 모델 내부에 '교사 축(Teacher Axis)' 이 존재하며 RLHF 는 이 능력을 억누르기보다 직교 방향으로 최적화합니다. 실험자는 MathDial 대화 데이터를 사용해 축을 추출하고, 레이어별 조종이 교육 능력에 미치는 영향을 추가로 탐구했습니다. 학생 압력이 가해질 때 교사 축 투영이 줄어드는 현상도 관찰되었습니다.
Gemma-2-2B 내부에서 추출한 '교사 축'이 RLHF 최적화 방향과 직교한다는 실험 결과가 나왔습니다.
골자
- 발견 — Gemma-2-2B 내부에 '교사 축(Teacher Axis)' 이 존재합니다.
- RLHF 관계 — RLHF 는 이 축을 억누르지 않고 직교 방향으로 최적화합니다.
- 추출 방법 — MathDial 대화 데이터를 사용해 축을 추출했습니다.
배경·맥락
- 저자는 ChatGPT 이후 학생들의 비판적 사고력과 독립적 추론 능력이 저하되는 것을 우려해, 소크라테스식 질문을 던지는 AI 조교를 프롬프트 엔지니어링으로 만들려 했으나 모델이 쉽게 답을 제공하는 데 실패했습니다.
- 이 경험에서 출발해 모델 내부에 교사 능력이 존재하는지, 아니면 아예 없는지를 탐구하게 되었습니다.
추가 실험
- 하위 방향 — 교사 축을 구성하는 하위 방향(sub-directions)을 분석했습니다.
- 레이어별 조종 — 서로 다른 레이어에서 교사 축을 조종할 때 교육 능력에 미치는 영향을 실험했습니다.
- 학생 압력 — 학생 압력이 가해질 때 교사 축 투영이 줄어드는 현상을 확인했습니다.
편집자 한 줄
해석 가능성 연구가 교육적 응용까지 이어진 사례입니다. RLHF 가 특정 능력을 억누른다는 통념과 다른 결과를 내놓은 점이 흥미롭습니다.
- #lesswrong
- #gemma-2-2b
- #teacher-axis
- #rlhf
- #mechanistic-interpretability
LessWrong