News·1주 전
GPT-2 유도 헤드 제거 시 로컬 반복 증가 — 기계적 해석성 연구

GPT-2 small 모델에서 유도 헤드(induction heads)를 제거하면 출력의 로컬 반복이 증가한다는 연구 결과가 나왔습니다. 활성 패칭과 무작위 헤드 제거 대조 실험을 통해 검증했으며, 상위 3~5개 헤드 제거 시 반복이 최대치에 달하는 비선형 관계도 확인했습니다. 엔트로피 변화는 로컬 반복 증가를 완전히 설명하지 못했습니다.
유도 헤드 제거가 오히려 출력 반복을 늘린다는 흥미로운 기계적 해석성 실험 결과입니다.
골자
- 현상 — GPT-2 small의 유도 헤드를 제거하자 "The capital of India is"에 대한 첫 토큰 예측이 "home"에서 "India"로 바뀌었습니다.
- 반복 증가 — 유도 헤드 제거 모델이 원본보다 더 반복적인 출력을 생성하는 패턴을 발견했습니다.
- 검증 — 활성 패칭(activation patching)과 무작위 헤드 제거 대조 실험으로 로컬 반복 증가를 엄격히 확인했습니다.
배경·맥락
- 유도 헤드는 이전 문맥에서 패턴을 복사해 다음 토큰을 예측하는 데 기여하는 것으로 알려져 있습니다.
- 비선형성 — 상위 3~5개 유도 헤드 제거 시 로컬 반복이 최대치에 달한 후 감소하는 비선형 관계를 보였습니다.
- 엔트로피 — 헤드별 엔트로피는 감소했지만 전체 엔트로피는 증가해, 로컬 반복 증가를 엔트로피만으로 설명하기 어려웠습니다.
자금 용처·향후
- 기여 — 유도 헤드 제거 효과가 가법적(additive)이지 않다는 기존 연구 결과를 로컬 반복과 엔트로피 측면에서 재확인했습니다.
- 한계 — 연구는 GPT-2 small에 국한되었으며, 더 큰 모델이나 다른 아키텍처에서의 일반화는 추가 검증이 필요합니다.
편집자 한 줄
유도 헤드가 반복을 억제하는 역할을 한다는 점이 흥미롭습니다. 비선형 관계는 해석성 연구에서 자주 간과되는 복잡성을 보여주네요.
- #mechanistic-interpretability
- #gpt-2
- #induction-heads
- #local-repetition
LessWrong