Papers·1주 전
UMD, activation steering 성공 여부를 초기 hidden state 로 예측 — 1.4M 샘플 테스트베드 ASTEER 공개

University of Maryland 팀이 activation steering 의 성공 여부를 모델의 초기 decoding hidden state 만으로 예측하는 방법을 제안했습니다. 150개 concept, 1.4M 개의 steered generation 을 포함한 테스트베드 ASTEER 를 구축하고, steering 전후 hidden state 차이를 feature 로 추출해 GBDT 분류기를 학습한 결과 unseen concept 에서 macro-F1 0.7 을 기록했습니다. 이 예측기를 steering strength 탐색에 활용하면 full rollout 없이도 거의 최적의 성능에 도달할 수 있다는 점이 핵심입니다.
UMD 팀이 activation steering 의 성공 여부를 초기 hidden state 만으로 예측하는 방법을 제안했습니다.
핵심 결론
- 예측 성능 — GBDT 분류기가 unseen concept 에 대해 macro-F1 0.7 을 기록, steering 성공/실패를 rollout 없이 예측 가능.
- 활용 — 예측기를 steering strength 탐색 가이드로 사용해 full rollout 대비 1/10 이하의 decoding cost 로 near-optimal 성능.
방법
- ASTEER — 150 concept, 1.4M steered generation 을 포함한 테스트베드. 각 generation 은 under-steer, success, over-steer 로 레이블링.
- 특징 추출 — Steering 전후 hidden state 차이를 layer 및 token position 별로 비교해 early decoding dynamics 를 feature 로 사용.
- 분류기는 GBDT 로, 복잡한 신경망 없이도 높은 예측 성능을 달성했습니다.
한계·조건
- 모델 — 실험은 주로 Llama 계열 모델에 국한되어 있으며, 다른 아키텍처에서의 일반화는 추가 검증 필요.
- 코드 — ASTEER 데이터셋과 예측기 코드는 공개 예정 — 현재는 논문과 abstract 만 확인 가능.
편집자 한 줄
steering strength 탐색 비용을 크게 줄인 점이 실용적으로 와닿네요. 다만 concept 간 예측 성능 편차가 있을 수 있어 추가 분석이 기대됩니다.
- #activation-steering
- #interpretability
- #llm
- #umd
University of Maryland College Park