← Back to feed
News·3시간 전

방향 해석은 가능하지만, 조작 핸들은 아니다 — 스티어링의 선형성 한계

방향 해석은 가능하지만, 조작 핸들은 아니다 — 스티어링의 선형성 한계

LessWrong 게시글에서 해석 가능성 연구자가 언어 모델 내 '방향(direction)'이 개념을 인코딩하더라도, 스티어링(steering)을 위한 조작 핸들로는 유효 범위가 제한적임을 수학적으로 증명했습니다. 로컬 테일러 전개를 통해 선형 근사가 유효한 반경을 유도했고, 실험에서 이 반경 이후 스티어링이 비선형으로 변하는 지점을 확인했습니다. 즉, 방향이 해석 가능하고 인과적이더라도 '더 많이 밀면 더 많은 개념'이라는 가정이 깨질 수 있습니다.

방향이 '의미'를 가져도 스티어링 핸들로는 유효 범위가 좁다는 수학적 증명과 실험 결과입니다.

골자

  • 주장방향이 해석 가능·인과적·예측적이어도, 스티어링 조작 핸들로는 선형성이 보장되는 범위가 제한적입니다.
  • 방법로컬 테일러 전개로 2차·3차 항이 선형 항 대비 유계인 반경을 유도했습니다.
  • 실험여러 모델에서 이 반경 이후 스티어링이 선형성을 잃는 지점을 확인했습니다.

배경·맥락

  • 현대 해석 가능성 연구는 모델 내부 방향이 개념을 인코딩한다고 가정하고, 이를 스티어링에 활용합니다.
  • 기존 연구는 방향의 해석 가능성과 인과성을 검증하지만, '더 많이 밀면 더 많은 개념'이라는 선형 가정의 유효 범위는 명시적으로 다루지 않았습니다.

자금 용처·향후

  • 이 결과는 스티어링 기반 제어(예: AI 안전)에서 조작 강도를 신중히 설정해야 함을 시사합니다.
  • 향후 연구는 비선형 영역에서의 스티어링 동작을 이해하거나, 선형성을 확장하는 방법을 탐구할 수 있습니다.

편집자 한 줄

해석 가능성 연구의 '방향'이 스티어링 핸들로 곧바로 이어지지 않을 수 있다는 점을 수학적으로 보여준 유용한 분석입니다.

  • #interpretability
  • #steering
  • #mechanistic-interpretability
  • #lesswrong
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —