← Back to feed
Ships·4시간 전

Anthropic, 차세대 Constitutional Classifiers 공개 — 보편적 탈옥 대비 효율 개선

Anthropic, 차세대 Constitutional Classifiers 공개 — 보편적 탈옥 대비 효율 개선

Anthropic 이 보편적 탈옥(universal jailbreak) 방어를 위한 차세대 Constitutional Classifiers 를 공개했습니다. 1세대는 탈옥 성공률을 86%에서 4.4%로 낮췄지만, 연산 비용이 23.7% 증가하고 무해한 질문에 대한 거절률도 0.38%p 올랐습니다. 이번 2세대는 효율성과 정확성을 개선해, 동일 방어 수준에서 비용 증가폭을 줄이고 오탐률을 낮추는 데 초점을 맞췄네요. 논문과 함께 버그 바운티 프로그램도 재개했습니다.

Anthropic 이 보편적 탈옥(universal jailbreak) 방어를 위한 차세대 Constitutional Classifiers 를 논문과 함께 공개했습니다.

핵심 변경

  • 방어 성능1세대는 탈옥 성공률을 86%→4.4%로 낮췄고, 보편적 탈옥은 버그 바운티에서 1건 발견됨. 2세대는 동일 방어 수준을 유지하면서 효율성을 개선했다고 합니다.
  • 비용·오탐1세대는 연산 비용 23.7% 증가, 무해 질문 거절률 0.38%p 상승. 2세대는 이 두 트레이드오프를 모두 줄이는 데 성공했다는 게 핵심입니다.
  • 합성 데이터 생성 방식은 유지하되, 'constitution' 규칙을 더 정교하게 다듬어 오탐을 줄인 것으로 보입니다.

제한·주의

  • 논문은 공개됐지만, 실제 모델에 적용된 시점이나 구체적인 수치(비용 증가율, 오탐률 등)는 아직 공개되지 않았습니다.
  • 버그 바운티 프로그램이 재개되어, 2세대 방어를 뚫는 보편적 탈옥을 찾는 도전이 시작됐네요.

편집자 한 줄

1세대 대비 구체적인 개선 수치가 논문에 공개되면 다시 보도할 만합니다. 버그 바운티 결과도 주목할 지점.

  • #anthropic
  • #constitutional-classifiers
  • #jailbreak-defense
  • #safety
  • #alignment
Anthropic
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —