News·2주 전
SAE 피처 라벨 생성 실험 — NLA 설명 vs 활성화 예제 비교

LessWrong 게시글에서 SAE 피처 라벨 생성을 위해 NLA 설명을 입력으로 사용하는 baez 방법을 제안했습니다. eleuther_acts_top5와 비교한 결과, 성능이 유사했지만 모든 방법이 우연 수준에 가까워 라벨 생성 방식이나 벤치마크 자체에 문제가 있을 가능성을 시사합니다. 저자는 피처를 입력·출력·교차·불명 4가지로 분류하고, 속성 그래프 구축을 위한 계층적 점수-라벨 프로토콜을 제안합니다.
SAE 피처 라벨링을 위해 활성화 예제 대신 NLA 설명을 입력으로 쓰는 실험이 우연 수준에 머물며, 새로운 분류 체계와 프로토콜로 이어졌습니다.
골자
- 방법 — baez는 NLA 설명을 LLM에 입력해 피처 라벨을 생성합니다.
- 비교 — baez, baez_last, eleuther_acts_top5 세 방법을 세 가지 벤치마크로 평가했습니다.
- 결과 — baez ≈ eleuther_acts_top5 수준이나, 모든 점수가 우연에 가까웠습니다.
배경·맥락
- 기존 Neuronpedia 라벨 생성은 oai_token-act-pair, np_max-act 등 활성화 예제 기반입니다.
- NLA — Anthropic이 최근 공개한 Natural Language Autoencoder로, 피처를 자연어 설명으로 인코딩합니다.
제안·향후
- 분류 — 피처를 input, output, cross, obscure 네 가지로 나누었습니다.
- 프로토콜 — 계층적 점수-라벨(tier-based score-then-label) 방식으로 속성 그래프 구축 비용을 낮출 수 있다고 봅니다.
편집자 한 줄
실험이 실패했지만, 그로부터 도출된 분류 체계와 프로토콜은 SAE 해석 연구에 실용적 방향을 제시합니다.
- #sae
- #feature-labeling
- #nla
- #autointerp
- #lesswrong
LessWrong