News·4시간 전
활성화 조향 각도-노름 분해 — 개념 정보는 각도, 표현 용량은 노름

선형 활성화 조향을 각도 변화와 노름 변화로 분해한 논문입니다. 개념 정보는 각도 성분에 주로 인코딩되지만, 노름도 토큰의 표현 용량을 반영해 중요합니다. 이에 따라 조향 강도 계수 하나가 아닌 각도·반경 두 독립 파라미터로 조향을 기술해야 한다고 주장합니다.
활성화 조향을 각도와 노름으로 분해해 각 성분의 역할을 실험적으로 분석한 논문입니다.
골자
- 가설 — 선형 조향은 노름을 크게 바꿔 분포 외부로 밀어내 모델 성능을 떨어뜨린다는 비판이 있었습니다.
- 대안 — 구형 조향(각도만 회전)이 더 낫다는 Vu & Nguyen (2025), You et al. (2026) 등의 연구가 있었지만, 노름 보존이 정말 필요한지는 충분히 분석되지 않았습니다.
- 방법 — 조향 벡터를 각도 변화(회전)와 노름 변화(스케일)로 분해해 각각의 효과를 통제 실험으로 측정했습니다.
배경·맥락
- 기존 선형 조향은 활성화 공간이 국소적으로 선형이라는 가정에 기반하지만, 노름이 크게 변하면서 분포 이동이 발생합니다.
- 구형 조향은 노름을 고정해 이 문제를 피하려 했으나, 노름 자체가 무의미하다는 전제를 검증하지 않았습니다.
결과·시사점
- 각도 — 개념 정보는 예상대로 각도 성분에 주로 인코딩되어 있습니다.
- 노름 — 노름도 중요한 역할을 하며, 이는 토큰의 표현 용량(representational capacity)을 반영하는 것으로 해석됩니다.
- 제안 — 조향은 단일 강도 계수가 아니라 각도 파라미터와 반경 파라미터 두 개로 독립적으로 제어해야 합니다.
편집자 한 줄
조향의 설계 공간을 각도-노름으로 명확히 분해한 점이 깔끔합니다. 실용적으로는 두 파라미터를 튜닝해야 한다는 게 번거로워 보이지만, 해석력은 확실히 올라가는 셈이네요.
- #activation-steering
- #interpretability
- #llm
- #representation-engineering
LessWrong