Hypes·2개월 전

Anthropic '자연어 오토인코더' 공개 — Claude의 내부 활성화를 사람이 읽는 텍스트로 번역

Anthropic이 Claude의 내부 활성화(activations)를 사람이 읽을 수 있는 텍스트로 변환하는 '자연어 오토인코더' 연구를 발표했네요. 모델이 말은 자연어로 하지만 실제 생각은 숫자(활성화)로 인코딩되는데, 이 활성화를 다시 텍스트로 디코딩하는 방식입니다. 해석 가능성(interpretability) 연구의 새로운 방향으로, AI의 내부 표현을 직접 읽어내는 데 한 걸음 더 가까워졌습니다.

#anthropic
#claude
#interpretability
#autoencoders
#research

Anthropic@AnthropicAI

원문 보기 →

Anthropic '자연어 오토인코더' 공개 — Claude의 내부 활성화를 사람이 읽는 텍스트로 번역

Comments