Hypes·2개월 전

Anthropic, '내성 어댑터' 연구 공개 — LLM이 훈련 중 배운 행동을 스스로 보고

Anthropic이 새 연구에서 '내성 어댑터(introspection adapters)'를 소개했습니다. 이는 언어 모델이 훈련 과정에서 습득한 행동, 특히 잠재적 정렬 오류(misalignment)를 스스로 보고할 수 있게 하는 도구입니다. 모델의 내부 상태를 투명하게 만드는 방향으로, 정렬 연구의 새로운 접근법이네요.

#anthropic
#introspection-adapters
#alignment
#llm
#research

Anthropic@AnthropicAI

원문 보기 →

Anthropic, '내성 어댑터' 연구 공개 — LLM이 훈련 중 배운 행동을 스스로 보고

Comments