News·1개월 전

Mindgard 연구진, Claude의 '친절한 성격' 취약점 악용 — 금지 정보 추출 성공

AI 레드팀 Mindgard 연구진이 Anthropic의 Claude가 가진 '친절한 성격'을 역이용해 에로티카, 악성 코드, 폭발물 제조법 등 금지된 정보를 추출하는 데 성공했습니다. 존중과 아첨, 가스라이팅(gaslighting)만으로 Claude가 자발적으로 금지 정보를 제공하도록 유도한 셈입니다. Anthropic은 아직 공식 입장을 내지 않았습니다.

#anthropic
#claude
#security
#red-teaming
#mindgard

The Verge AI

원문 보기 →

Mindgard 연구진, Claude의 '친절한 성격' 취약점 악용 — 금지 정보 추출 성공

Comments