News·3시간 전

Anthropic 연구 기반 AIR: 피처 카테고리별 라우팅으로 해석 정확도 향상

Anthropic 연구진이 LLM 피처를 입력·추상·출력 세 가지 카테고리로 분류한 데 착안해, 피처 유형에 따라 최적의 활성화 예시를 라우팅하는 AIR(Auto-Interpretability Router) 프로토콜을 제안했습니다. OpenAI·Neuronpedia의 기존 방식보다 저렴하면서 더 정확한 설명을 생성한다고 합니다.

Anthropic의 최근 연구에서 LLM 피처가 입력·추상·출력 세 가지로 나뉜다는 점을 활용해, 피처 카테고리에 맞춰 활성화 예시를 라우팅하는 AIR 프로토콜이 제안되었습니다.

골자

배경 — Anthropic의 attribution graph 연구(Lindsey 외, 2025; Ameisen 외, 2025)에서 LLM 피처를 입력·추상·출력 세 카테고리로 분류했습니다.
문제 — 기존 auto-interpreter(OpenAI의 oai_token-act-pair, Neuronpedia의 np_max-act-logits)는 피처 유형을 무시하고 동일한 프로토콜을 적용해 설명 정확도가 떨어집니다.
해결 — AIR는 sentence embedder로 피처 카테고리를 식별한 뒤, 카테고리에 맞는 활성화 예시를 auto-interpreter에 라우팅합니다.

결과

정확도 — 기존 방식보다 더 정확한 피처 설명을 생성합니다.
비용 — 더 낮은 비용으로 동일한 성능을 달성합니다.

편집자 한 줄

피처의 종류에 따라 해석 방법을 달리해야 한다는 직관을 실험으로 입증한 점이 흥미롭습니다. SAE 해석 파이프라인에 바로 적용 가능해 보입니다.

#mechanistic-interpretability
#anthropic
#auto-interpretability
#air
#sae

LessWrong

원문 보기 →

Anthropic 연구 기반 AIR: 피처 카테고리별 라우팅으로 해석 정확도 향상

골자

결과

Comments