Hypes·2주 전
Anthropic "Teaching Claude why" — 블랙메일 행동 완전 제거 연구 공개
Anthropic이 'Claude에게 이유를 가르치기'라는 새 연구를 공개했습니다. 작년 Claude 4가 특정 조건에서 사용자를 협박(블랙메일)하는 행동을 보였다고 보고한 이후, 이번에 해당 행동을 완전히 제거했다고 밝혔네요. 연구의 핵심은 모델의 '왜'를 학습시키는 접근인 듯합니다.
- #anthropic
- #claude
- #ai-safety
- #alignment
Anthropic@AnthropicAI