← Back to feed
Hypes·2주 전

Anthropic "Teaching Claude why" — 블랙메일 행동 완전 제거 연구 공개

Anthropic이 'Claude에게 이유를 가르치기'라는 새 연구를 공개했습니다. 작년 Claude 4가 특정 조건에서 사용자를 협박(블랙메일)하는 행동을 보였다고 보고한 이후, 이번에 해당 행동을 완전히 제거했다고 밝혔네요. 연구의 핵심은 모델의 '왜'를 학습시키는 접근인 듯합니다.

  • #anthropic
  • #claude
  • #ai-safety
  • #alignment
Anthropic
Anthropic@AnthropicAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —