Papers·2일 전
WriteSAE: SSM·하이브리드 RNN 언어모델의 행렬 캐시 쓰기를 분해·편집하는 최초의 SAE
WriteSAE는 Gated DeltaNet, Mamba-2, RWKV-7 등 상태공간·하이브리드 순환 언어모델에서 행렬 캐시 쓰기(matrix cache write)를 분해하고 편집하는 최초의 sparse autoencoder입니다. 기존 residual SAE는 rank-1 업데이트(k_t v_t^T)로 쓰여지는 d_k×d_v 캐시에 접근할 수 없었는데, WriteSAE는 디코더 원자를 네이티브 쓰기 형태로 분해하고 토큰별 로짓 변화의 closed form을 제공합니다. Qwen3.5-0.8B L9 H4에서 92.4%의 원자 치환 성공률, 87개 원자 집단 검증 89.8%, 예측 R²=0.98을 기록했으며, Mamba-2-370M에서도 88.1%를 달성했습니다. 세 위치 동시 설치 시 greedy decoding에서 midrank target-in-continuation을 33.3%에서 100%로 끌어올린 최초의 행렬-순환 쓰기 부위 행동 설치 사례입니다.
- #sparse-autoencoder
- #mechanistic-interpretability
- #state-space-model
- #mamba
- #rwkv
Jack Young