Papers·1개월 전

UMD, activation steering 성공 여부를 초기 hidden state 로 예측 — 1.4M 샘플 테스트베드 ASTEER 공개

University of Maryland 팀이 activation steering 의 성공 여부를 모델의 초기 decoding hidden state 만으로 예측하는 방법을 제안했습니다. 150개 concept, 1.4M 개의 steered generation 을 포함한 테스트베드 ASTEER 를 구축하고, steering 전후 hidden state 차이를 feature 로 추출해 GBDT 분류기를 학습한 결과 unseen concept 에서 macro-F1 0.7 을 기록했습니다. 이 예측기를 steering strength 탐색에 활용하면 full rollout 없이도 거의 최적의 성능에 도달할 수 있다는 점이 핵심입니다.

UMD 팀이 activation steering 의 성공 여부를 초기 hidden state 만으로 예측하는 방법을 제안했습니다.

핵심 결론

예측 성능 — GBDT 분류기가 unseen concept 에 대해 macro-F1 0.7 을 기록, steering 성공/실패를 rollout 없이 예측 가능.
활용 — 예측기를 steering strength 탐색 가이드로 사용해 full rollout 대비 1/10 이하의 decoding cost 로 near-optimal 성능.

방법

ASTEER — 150 concept, 1.4M steered generation 을 포함한 테스트베드. 각 generation 은 under-steer, success, over-steer 로 레이블링.
특징 추출 — Steering 전후 hidden state 차이를 layer 및 token position 별로 비교해 early decoding dynamics 를 feature 로 사용.
분류기는 GBDT 로, 복잡한 신경망 없이도 높은 예측 성능을 달성했습니다.

한계·조건

모델 — 실험은 주로 Llama 계열 모델에 국한되어 있으며, 다른 아키텍처에서의 일반화는 추가 검증 필요.
코드 — ASTEER 데이터셋과 예측기 코드는 공개 예정 — 현재는 논문과 abstract 만 확인 가능.

편집자 한 줄

steering strength 탐색 비용을 크게 줄인 점이 실용적으로 와닿네요. 다만 concept 간 예측 성능 편차가 있을 수 있어 추가 분석이 기대됩니다.

#activation-steering
#interpretability
#llm
#umd

University of Maryland College Park

원문 보기 →

UMD, activation steering 성공 여부를 초기 hidden state 로 예측 — 1.4M 샘플 테스트베드 ASTEER 공개

핵심 결론

방법

한계·조건

Comments