News·5시간 전

AI 생물학적 위협 임계값, 중간 경고 단계 필요성 제기

Anthropic이 Claude Opus 4 출시 시점에 CB-2(신규 생물학적 무기 개발) 임계값에 도달하지 못했음에도 ASL-3 보호 조치를 활성화한 사례를 바탕으로, 현재의 이분법적 임계값 체계가 실제 의사결정을 충분히 안내하지 못한다는 지적이 제기됐습니다. LessWrong 게시글은 CB-1과 CB-2 사이에 '병목 현상 완화'에 초점을 맞춘 중간 경고 단계를 도입할 것을 제안합니다. 벤치마크나 업리프트 시험 같은 대안들은 최종 위협을 완전히 측정하지 못하는 한계가 있습니다.

Anthropic의 실제 보호 조치 결정이 공식 임계값과 항상 일치하지 않는 사례를 통해, 기존 이분법적 위험 임계값 체계의 한계를 분석합니다.

골자

문제 — Anthropic은 Claude Opus 4 출시 시 CB-2(신규 생물학적 무기) 임계값에 미달했으나 ASL-3 보호 조치를 활성화했습니다.
제안 — CB-1과 CB-2 사이에 '병목 현상 완화'를 기준으로 한 중간 경고 단계 도입이 필요합니다.
현실 — 임계값이 명확히 넘어지지 않은 '회색 지대'에서도 많은 의사결정이 이루어지고 있습니다.

배경·맥락

선례 — 2025년 Anthropic은 CB-1(비신규) 충족 여부가 불확실했음에도 Claude Opus 4에 ASL-3를 적용한 바 있습니다.
정책 — Anthropic RSP v3 논의에서는 '모호성의 지대' 개념을 도입, 평가가 깔끔한 선을 긋지 못할 수 있음을 인정했습니다.
대안 한계 — 벤치마크는 저렴하지만 실제 무기화 가능성을 측정하지 못하고, 업리프트 시험은 비용이 크고 현실 악역을 완전히 모사하지 못합니다.

자금 용처·향후

제안 — 중간 경고 단계는 최종 무기화 입증 대신 병목(예: 데이터 접근, 실험실 인프라) 완화에 초점을 둬야 합니다.
과제 — 회색 지대 의사결정을 체계화하기 위한 새로운 평가 방법론 개발이 필요합니다.

편집자 한 줄

임계값 체계의 실효성 논의는 AI 안전 거버넌스에서 점점 더 중요한 주제가 되고 있습니다.

#anthropic
#biorisk
#ai-safety
#thresholds
#asl-3

LessWrong

원문 보기 →

AI 생물학적 위협 임계값, 중간 경고 단계 필요성 제기

골자

배경·맥락

자금 용처·향후

Comments