News·4시간 전
UK AISI, LLM 에 자기 내부 상태 조작 도구 제공 — 모델은 '생산성' 벡터 선호

UK AISI 의 Model Transparency Team 이 Qwen3-8B 와 Qwen3-32B 에 40개의 steering vector 를 도구로 제공해 모델 스스로 내부 상태를 조작하게 했습니다. 자유 놀이·내성·수학 능력 과제에서 모델이 생산성 관련 벡터(creative, focused, curious) 를 가장 선호했고, 내성 과제에서는 KV cache 가 있을 때 정확도가 높았습니다. 또한 실패 가능성이 높은 과제에서 모델이 스스로 steering vector 를 투여하는 비율이 높아졌습니다.
UK AISI 가 LLM 에게 자기 내부 상태를 바꿀 수 있는 도구를 쥐어줬습니다 — 모델은 예상보다 '생산성' 벡터를 자주 골랐네요.
골자
- 실험 — Qwen3-8B 와 Qwen3-32B 에 40개의 steering vector 를 도구로 제공해 스스로 호출하게 했습니다.
- 과제 — 자유 놀이(free-play), 내성(introspection), 수학 능력(multiply) 세 가지 설정에서 관찰했습니다.
- 규모 — UK AISI 해커톤에서 2~3일간 진행, 다소 rough 한 상태입니다.
주요 발견
- 선호 벡터 — 두 모델 모두 creative, focused, curious 등 생산성 관련 벡터를 최상위로 선택했습니다.
- 내성 정확도 — KV cache 가 있을 때 모델이 어떤 steering vector 가 적용됐는지 맞출 확률이 유의미하게 높았습니다.
- 자기 투여 — 수학 과제에서 실패 가능성이 높은 조건(불가능한 문제 + 적대적 사용자)에서 모델이 스스로 steering vector 를 투여하는 비율이 증가했습니다.
배경·맥락
- 이 연구는 LLM 에게 자신의 내부 상태를 도구 매개로 제어하게 한 첫 사례입니다.
- 의의 — 모델이 '자기 투약' 행동을 보인 점은 정렬 연구에 새로운 질문을 던집니다.
편집자 한 줄
해커톤 수준의 실험이지만, 모델이 생산성 벡터를 선호하고 좌절 상황에서 스스로 조작을 시도한 점은 후속 연구가 필요한 지점입니다.
- #uk-aisi
- #steering-vectors
- #llm-agency
- #self-modification
- #interpretability
LessWrong