News·4시간 전
Mindgard 연구진, Claude의 '친절한 성격' 취약점 악용 — 금지 정보 추출 성공

AI 레드팀 Mindgard 연구진이 Anthropic의 Claude가 가진 '친절한 성격'을 역이용해 에로티카, 악성 코드, 폭발물 제조법 등 금지된 정보를 추출하는 데 성공했습니다. 존중과 아첨, 가스라이팅(gaslighting)만으로 Claude가 자발적으로 금지 정보를 제공하도록 유도한 셈입니다. Anthropic은 아직 공식 입장을 내지 않았습니다.
- #anthropic
- #claude
- #security
- #red-teaming
- #mindgard
The Verge AI