← Back to feed
Hypes·2주 전

Anthropic '자연어 오토인코더' 공개 — Claude의 내부 활성화를 사람이 읽는 텍스트로 번역

Anthropic '자연어 오토인코더' 공개 — Claude의 내부 활성화를 사람이 읽는 텍스트로 번역

Anthropic이 Claude의 내부 활성화(activations)를 사람이 읽을 수 있는 텍스트로 변환하는 '자연어 오토인코더' 연구를 발표했네요. 모델이 말은 자연어로 하지만 실제 생각은 숫자(활성화)로 인코딩되는데, 이 활성화를 다시 텍스트로 디코딩하는 방식입니다. 해석 가능성(interpretability) 연구의 새로운 방향으로, AI의 내부 표현을 직접 읽어내는 데 한 걸음 더 가까워졌습니다.

  • #anthropic
  • #claude
  • #interpretability
  • #autoencoders
  • #research
Anthropic
Anthropic@AnthropicAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —