News·5시간 전
활성화 언어화기, 단일 전방 패스 내 추론 표면화 평가 — 가능성 있지만 신뢰도 낮아

LessWrong 에 게재된 연구에서 활성화 언어화기(AV)가 단일 전방 패스 내에서 모델의 수학 문제 추론을 표면화할 수 있는지 평가했습니다. Qwen2.5 7B, Gemma 3 27B, Llama 3.3 70B 대상으로 한 결과, 가능성은 있지만 신뢰할 수준은 아니라고 합니다. AV는 잔차 스트림 활성화를 자연어로 매핑하며, 활성화 재구성기(AR)와 함께 자연어 오토인코더(NLA)를 구성합니다. 이 평가는 600개의 미국 중학교 및 300개의 헝가리 고등학교 수학 문제를 사용했습니다.
활성화 언어화기가 단일 전방 패스 내 추론을 얼마나 잘 드러내는지 평가한 연구가 나왔습니다.
골자
- 목적 — 활성화 언어화기(AV)가 단일 전방 패스 내 모델의 수학 문제 추론을 표면화할 수 있는지 평가.
- 대상 — Qwen2.5 7B, Gemma 3 27B, Llama 3.3 70B 의 오픈 웨이트 NLA.
- 데이터셋 — Ryan 의 쉬운 경쟁 수학 문제 — 미국 중학교 600개, 헝가리 고등학교 300개.
- 결과 — 가능성은 있지만 신뢰할 수준은 아님.
배경·맥락
- 현재 AI 모델은 자연어 체인 오브 소트로 추론을 외부화하지만, 단일 전방 패스 내 추론은 불투명함.
- AV 구조 — 잔차 스트림 활성화를 자연어로 매핑하며, 활성화 재구성기(AR)와 함께 자연어 오토인코더(NLA)를 구성.
- 차별점 — AV는 단일 활성화만 보고, 프롬프트나 다음 토큰 출력은 보지 않음. 활성화 오라클(AO)과 달리 특정 질문도 없음.
자금 용처·향후
- 부록 E 에서 Qwen3 8B 의 오픈 웨이트 AO 에 대한 언어화도 추가로 elicit.
- 프롬프팅 — 10샷 프롬프팅, 각 문제 5회 반복으로 성능 소폭 향상.
편집자 한 줄
단일 전방 패스 해석 가능성에 대한 실용적 평가라는 점에서 의미 있지만, 신뢰도가 낮아 실용화까지는 거리가 있어 보입니다.
- #activation-verbalizer
- #interpretability
- #nlp
- #reasoning
- #evaluation
LessWrong