News·1개월 전

GDM, AI 통제 로드맵 v0.1 발표 — 위협 모델링·방어 불변식·완화 사다리 제시

GDM(Google DeepMind)이 AI 통제 로드맵 v0.1을 공개했습니다. 내부 배치된 AI 에이전트의 적대적 행동을 탐지·방어하기 위한 시스템 수준 완화책을 다루며, 사이버보안 프레임워크 MITRE ATT&CK를 차용한 TRAIT&R 위협 분류, 두 가지 방어 불변식(신뢰 탐지·공격 예방), 모델 능력에 따라 강화되는 탐지(D1~D4) 및 대응(R1~R3) 완화 사다리를 포함합니다. 이전에 GDM이 발표한 '통제 실험' 백서의 후속 작업입니다.

GDM이 내부 AI 에이전트의 적대적 행동을 막기 위한 통제 로드맵 v0.1을 내놓았습니다.

골자

대상 — 내부 배치된 AI 에이전트가 의도치 않거나 적대적인 행동을 할 경우를 가정한 시스템 수준 완화책.
위협 모델 — 사이버보안의 MITRE ATT&CK를 차용한 TRAIT&R 분류 체계로, 통제 상실·작업 방해·직접 피해 세 영역을 식별.
방어 불변식 — 두 가지: i) 잘못된 의도나 행동의 신뢰성 있는 탐지, ii) 공격 시도의 효과적 예방 및 대응.
완화 사다리 — 모델 능력에 따라 탐지(D1~D4)와 대응(R1~R3) 단계를 구분, 더 강력한 모델에 더 비싼 방어를 적용.

배경·맥락

이 로드맵은 GDM이 2024년 발표한 '통제 실험' 백서의 연장선으로, 실제 배포 환경에서의 정량적 통제 평가를 구체화한 것.
차별점 — 기존 정렬 연구가 모델 자체의 내적 정렬에 집중했다면, 이 로드맵은 시스템 외부에서 가드레일을 두는 '통제' 접근법을 채택.

자금 용처·향후

다음 단계 — 로드맵 v0.1은 초안이며, 커뮤니티 피드백을 받아 v1.0으로 업데이트할 예정.
적용 — GDM 내부 배치 파이프라인에 단계적으로 적용되며, 구체적인 실험 결과는 별도 논문으로 공개될 가능성.

편집자 한 줄

사이버보안에서 차용한 프레임워크를 AI 통제에 적용한 점이 흥미롭습니다. 다만 '가상의 적대적 AI'를 가정한 worst-case 접근이 실제 배포에서 얼마나 현실적일지는 더 지켜봐야겠네요.

#gdm
#ai-control
#roadmap
#threat-modeling
#mitigation-ladders

LessWrong

원문 보기 →

GDM, AI 통제 로드맵 v0.1 발표 — 위협 모델링·방어 불변식·완화 사다리 제시

골자

배경·맥락

자금 용처·향후

Comments