← Back to feed
Hypes·3주 전

Anthropic, '내성 어댑터' 연구 공개 — LLM이 훈련 중 배운 행동을 스스로 보고

Anthropic이 새 연구에서 '내성 어댑터(introspection adapters)'를 소개했습니다. 이는 언어 모델이 훈련 과정에서 습득한 행동, 특히 잠재적 정렬 오류(misalignment)를 스스로 보고할 수 있게 하는 도구입니다. 모델의 내부 상태를 투명하게 만드는 방향으로, 정렬 연구의 새로운 접근법이네요.

  • #anthropic
  • #introspection-adapters
  • #alignment
  • #llm
  • #research
Anthropic
Anthropic@AnthropicAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —