← Back to feed
Ships·4시간 전

Anthropic, Claude 제품 전반의 안전 통제 아키텍처 공개 — 블래스트 반경 제한이 핵심

Anthropic, Claude 제품 전반의 안전 통제 아키텍처 공개 — 블래스트 반경 제한이 핵심

Anthropic이 Claude 제품 전반에서 모델의 행동을 안전하게 통제하는 방법을 공개했습니다. 12개월 전에는 상상도 못 했던 수준의 시스템 접근 권한을 Claude에 부여하는 것이 현재 일상화되었으며, 개발자 생산성은 높아졌지만 잠재적 피해 범위(blast radius)도 함께 커졌습니다. 핵심 접근법은 두 가지로, 인간 감독자(HITL) 방식과 자동화된 안전 승인(Claude Code auto mode)인데, 전자는 사용자가 93%의 권한 요청을 승인하면서 피로도가 쌓여 감독이 느슨해지는 문제가 드러났습니다. 현재는 후자 쪽으로 무게를 옮기는 중입니다.

Anthropic이 Claude 제품 전반에서 모델의 행동을 안전하게 통제하는 방법을 공개했습니다. 12개월 전에는 상상도 못 했던 수준의 시스템 접근 권한을 Claude에 부여하는 것이 현재 일상화되었지만, 잠재적 피해 범위도 함께 커졌습니다.

핵심 변경

  • 접근 권한 확대12개월 전에는 Claude가 내부 서비스를 중단시킬 수 있는 접근 권한을 부여하는 것을 거부했을 정도였지만, 현재는 그런 수준의 접근이 일상적이며 개발자 생산성 향상으로 이어졌습니다.
  • 위험 요소배포 위험은 실패 가능성과 실패 시 피해 규모(blast radius) 두 가지로 구성되는데, 안전장치와 모델 훈련으로 전자는 줄었지만 후자는 역량과 접근 권한이 커질수록 증가합니다.
  • Claude Mythos Preview2026년 4월에는 블래스트 반경이 너무 크다고 판단되어 출시가 보류된 모델이 있었습니다. 그러나 방어 체계가 강화되고 안전장치가 성숙해지면 유사한 수준의 모델도 출시될 가능성이 있습니다.

통제 방식

  • 인간 감독(HITL)Claude Code는 이전에 각 행동마다 사용자 승인을 요청했지만, 텔레메트리 결과 사용자가 약 93%의 권한 요청을 승인하는 것으로 나타나 감독 피로도가 문제로 드러났습니다.
  • 자동화된 승인최근 Claude Code auto mode를 도입하여 안전한 승인을 자동화함으로써 승인 피로도를 줄이고 있습니다. 그러나 여전히 취약점은 존재합니다.

편집자 한 줄

93% 승인율은 HITL 방식의 한계를 잘 보여주는 숫자네요. 자동화된 안전 승인으로 전환하는 흐름은 자연스럽지만, 블래스트 반경 자체를 줄이지 않고 관리에 의존하는 전략이 장기적으로 유효할지는 지켜볼 필요가 있습니다.

  • #anthropic
  • #claude
  • #safety
  • #blast-radius
  • #agent
Anthropic
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —