Papers·1개월 전

HUAWEI, activation steering 의 각도·반지름 효과 분리 — 7개 LM 에서 개념은 주로 각도 구조에 저장

HUAWEI Noah's Ark Lab 팀이 activation steering 에서 각도(angular)와 반지름(radial) 성분의 역할을 분리한 실증 연구를 공개했습니다. 7개 언어 모델 실험 결과, 개념 정보는 주로 각도 구조에 인코딩되지만, steering 의 안정성과 downstream 효과에는 norm(반지름)도 중요함을 보였습니다. 이는 기존 additive steering 과 spherical steering 의 차이가 단일 계수로 두 효과를 얽는 방식 때문임을 설명하며, steering 을 해석 가능한 각도·반지름 파라미터로 분리해 제어해야 한다고 제안합니다.

HUAWEI 팀이 activation steering 의 각도와 반지름 효과를 분리해, 개념은 주로 각도에 저장되지만 norm 도 중요함을 밝혔습니다.

핵심 결론

태스크 — 7개 LM (Llama 2, Mistral 등)에서 steering 방법의 각도·반지름 효과를 분리 분석.
결과 — 개념 정보는 주로 각도(angular) 구조에 인코딩되며, spherical steering 의 동기를 지지.
발견 — 그러나 norm(반지름) 변화는 steering 의 안정성과 downstream 효과에 유의미한 영향을 미침.

방법

분해 실험 — additive steering 과 spherical steering 의 차이가 각도와 반지름 효과를 어떻게 결합하는지 통제 실험으로 분리.
측정 — 각 조건에서 개념 방향으로의 angular alignment 변화와 hidden-state norm 변화를 각각 측정.
직관 — additive steering 은 각도와 반지름을 동시에 바꾸지만, spherical steering 은 각도만 바꾸려는 설계 — 그러나 norm 변화가 완전히 사라지지는 않음.

한계·조건

범위 — 실험은 steering vector 를 사전에 정의한 개념(긍정/부정 등)에 한정, 복잡한 다중 개념에는 일반화 검증 필요.
재현성 — 코드 공개 여부는 명시되지 않음. 실험은 7개 오픈 모델로 수행되어 재현 가능성은 높은 편.
실용성 — 제안된 분리 파라미터화가 실제 제어 정확도나 안정성을 개선하는지는 후속 연구가 필요.

편집자 한 줄

activation steering 의 기하학적 해석을 명확히 한 점이 흥미롭습니다. 다만 제안된 분리 파라미터화의 실질적 이득은 아직 검증되지 않았네요.

#activation-steering
#interpretability
#huawei
#llm

HUAWEI Noah's Ark Lab

원문 보기 →

HUAWEI, activation steering 의 각도·반지름 효과 분리 — 7개 LM 에서 개념은 주로 각도 구조에 저장

핵심 결론

방법

한계·조건

Comments