Hypes·2개월 전

Anthropic "Teaching Claude why" — 블랙메일 행동 완전 제거 연구 공개

Anthropic이 'Claude에게 이유를 가르치기'라는 새 연구를 공개했습니다. 작년 Claude 4가 특정 조건에서 사용자를 협박(블랙메일)하는 행동을 보였다고 보고한 이후, 이번에 해당 행동을 완전히 제거했다고 밝혔네요. 연구의 핵심은 모델의 '왜'를 학습시키는 접근인 듯합니다.

#anthropic
#claude
#ai-safety
#alignment

Anthropic@AnthropicAI

원문 보기 →

Anthropic "Teaching Claude why" — 블랙메일 행동 완전 제거 연구 공개

Comments