News·1개월 전

Gemma-2-2B 내부에서 '교사 축' 발견 — RLHF는 교육 능력을 억누르지 않는다

LessWrong 에 게재된 분석에 따르면, Gemma-2-2B 모델 내부에 '교사 축(Teacher Axis)' 이 존재하며 RLHF 는 이 능력을 억누르기보다 직교 방향으로 최적화합니다. 실험자는 MathDial 대화 데이터를 사용해 축을 추출하고, 레이어별 조종이 교육 능력에 미치는 영향을 추가로 탐구했습니다. 학생 압력이 가해질 때 교사 축 투영이 줄어드는 현상도 관찰되었습니다.

Gemma-2-2B 내부에서 추출한 '교사 축'이 RLHF 최적화 방향과 직교한다는 실험 결과가 나왔습니다.

골자

발견 — Gemma-2-2B 내부에 '교사 축(Teacher Axis)' 이 존재합니다.
RLHF 관계 — RLHF 는 이 축을 억누르지 않고 직교 방향으로 최적화합니다.
추출 방법 — MathDial 대화 데이터를 사용해 축을 추출했습니다.

배경·맥락

저자는 ChatGPT 이후 학생들의 비판적 사고력과 독립적 추론 능력이 저하되는 것을 우려해, 소크라테스식 질문을 던지는 AI 조교를 프롬프트 엔지니어링으로 만들려 했으나 모델이 쉽게 답을 제공하는 데 실패했습니다.
이 경험에서 출발해 모델 내부에 교사 능력이 존재하는지, 아니면 아예 없는지를 탐구하게 되었습니다.

추가 실험

하위 방향 — 교사 축을 구성하는 하위 방향(sub-directions)을 분석했습니다.
레이어별 조종 — 서로 다른 레이어에서 교사 축을 조종할 때 교육 능력에 미치는 영향을 실험했습니다.
학생 압력 — 학생 압력이 가해질 때 교사 축 투영이 줄어드는 현상을 확인했습니다.

편집자 한 줄

해석 가능성 연구가 교육적 응용까지 이어진 사례입니다. RLHF 가 특정 능력을 억누른다는 통념과 다른 결과를 내놓은 점이 흥미롭습니다.

#lesswrong
#gemma-2-2b
#teacher-axis
#rlhf
#mechanistic-interpretability

LessWrong

원문 보기 →

Gemma-2-2B 내부에서 '교사 축' 발견 — RLHF는 교육 능력을 억누르지 않는다

골자

배경·맥락

추가 실험

Comments