Ships·1개월 전

Anthropic, 차세대 Constitutional Classifiers 공개 — 보편적 탈옥 대비 효율 개선

Anthropic 이 보편적 탈옥(universal jailbreak) 방어를 위한 차세대 Constitutional Classifiers 를 공개했습니다. 1세대는 탈옥 성공률을 86%에서 4.4%로 낮췄지만, 연산 비용이 23.7% 증가하고 무해한 질문에 대한 거절률도 0.38%p 올랐습니다. 이번 2세대는 효율성과 정확성을 개선해, 동일 방어 수준에서 비용 증가폭을 줄이고 오탐률을 낮추는 데 초점을 맞췄네요. 논문과 함께 버그 바운티 프로그램도 재개했습니다.

Anthropic 이 보편적 탈옥(universal jailbreak) 방어를 위한 차세대 Constitutional Classifiers 를 논문과 함께 공개했습니다.

핵심 변경

방어 성능 — 1세대는 탈옥 성공률을 86%→4.4%로 낮췄고, 보편적 탈옥은 버그 바운티에서 1건 발견됨. 2세대는 동일 방어 수준을 유지하면서 효율성을 개선했다고 합니다.
비용·오탐 — 1세대는 연산 비용 23.7% 증가, 무해 질문 거절률 0.38%p 상승. 2세대는 이 두 트레이드오프를 모두 줄이는 데 성공했다는 게 핵심입니다.
합성 데이터 생성 방식은 유지하되, 'constitution' 규칙을 더 정교하게 다듬어 오탐을 줄인 것으로 보입니다.

제한·주의

논문은 공개됐지만, 실제 모델에 적용된 시점이나 구체적인 수치(비용 증가율, 오탐률 등)는 아직 공개되지 않았습니다.
버그 바운티 프로그램이 재개되어, 2세대 방어를 뚫는 보편적 탈옥을 찾는 도전이 시작됐네요.

편집자 한 줄

1세대 대비 구체적인 개선 수치가 논문에 공개되면 다시 보도할 만합니다. 버그 바운티 결과도 주목할 지점.

#anthropic
#constitutional-classifiers
#jailbreak-defense
#safety
#alignment

Anthropic

원문 보기 →

Anthropic, 차세대 Constitutional Classifiers 공개 — 보편적 탈옥 대비 효율 개선

핵심 변경

제한·주의

Comments