Papers·1개월 전

ICALens: ICA가 LLM 해석에서 SAE보다 효율적인 첫 번째 렌즈가 될 수 있다

E3AI Lab이 ICA를 LLM 표현 해석에 최적화한 ICALens를 공개했습니다. GPU 병렬 FastICA 파이프라인과 안정화 레시피를 통해 GPT-2 Small, Gemma 2 2B, Qwen 3.5 2B Base에서 SAE 대비 sparse probing 성능은 비슷하거나 더 좋고, small-to-medium budget에서는 probe perturbation에서 우위를 보였습니다. 단, SAE만큼 많은 방향을 포착하지는 못해 보완적 도구로 봐야 한다는 한계가 있습니다.

ICA가 LLM 해석에서 SAE보다 효율적인 첫 번째 렌즈가 될 수 있음을 보인 논문입니다.

핵심 결론

태스크 — LLM 표현에서 해석 가능한 방향을 찾는 문제 — ICA가 SAE 대비 경쟁력 있음.
벤치 — SAEBench에서 sparse probing은 SAE와 비슷, targeted probe perturbation은 small-to-medium budget에서 ICA가 더 좋음.
모델 — GPT-2 Small, Gemma 2 2B, Qwen 3.5 2B Base에서 검증.

방법

핵심 아이디어 — 해석 가능한 방향은 토큰에 대해 선택적이므로 비가우시안 방향일 것 — ICA로 이 방향을 찾음.
ICALens — GPU 병렬 FastICA + LLM 특화 안정화 레시피 + 적합 진단 도구를 포함한 워크플로.
SAE처럼 per-layer gradient 기반 사전 학습이 필요 없어 빠르고 효율적입니다.

한계·조건

비교 대상 — SAE만큼 많은 방향을 포착하지 못하므로 보완적 도구로 봐야 함.
재현성 — 코드 공개 여부는 명시되지 않았으나 FastICA 자체는 표준 라이브러리로 재현 가능.
ICA의 안정성은 데이터 전처리와 하이퍼파라미터에 민감할 수 있습니다.

편집자 한 줄

ICA라는 고전 방법이 LLM 해석에서 다시 주목받을 만한 결과네요. SAE 대비 효율성은 확실히 매력적입니다.

#interpretability
#ica
#sparse-autoencoder
#llm
#e3ai

Effective, Efficient, and Explainable AI Lab

원문 보기 →

ICALens: ICA가 LLM 해석에서 SAE보다 효율적인 첫 번째 렌즈가 될 수 있다

핵심 결론

방법

한계·조건

Comments