News·17시간 전
GDM, AI 통제 로드맵 v0.1 발표 — 위협 모델링·방어 불변식·완화 사다리 제시

GDM(Google DeepMind)이 AI 통제 로드맵 v0.1을 공개했습니다. 내부 배치된 AI 에이전트의 적대적 행동을 탐지·방어하기 위한 시스템 수준 완화책을 다루며, 사이버보안 프레임워크 MITRE ATT&CK를 차용한 TRAIT&R 위협 분류, 두 가지 방어 불변식(신뢰 탐지·공격 예방), 모델 능력에 따라 강화되는 탐지(D1~D4) 및 대응(R1~R3) 완화 사다리를 포함합니다. 이전에 GDM이 발표한 '통제 실험' 백서의 후속 작업입니다.
GDM이 내부 AI 에이전트의 적대적 행동을 막기 위한 통제 로드맵 v0.1을 내놓았습니다.
골자
- 대상 — 내부 배치된 AI 에이전트가 의도치 않거나 적대적인 행동을 할 경우를 가정한 시스템 수준 완화책.
- 위협 모델 — 사이버보안의 MITRE ATT&CK를 차용한 TRAIT&R 분류 체계로, 통제 상실·작업 방해·직접 피해 세 영역을 식별.
- 방어 불변식 — 두 가지: i) 잘못된 의도나 행동의 신뢰성 있는 탐지, ii) 공격 시도의 효과적 예방 및 대응.
- 완화 사다리 — 모델 능력에 따라 탐지(D1~D4)와 대응(R1~R3) 단계를 구분, 더 강력한 모델에 더 비싼 방어를 적용.
배경·맥락
- 이 로드맵은 GDM이 2024년 발표한 '통제 실험' 백서의 연장선으로, 실제 배포 환경에서의 정량적 통제 평가를 구체화한 것.
- 차별점 — 기존 정렬 연구가 모델 자체의 내적 정렬에 집중했다면, 이 로드맵은 시스템 외부에서 가드레일을 두는 '통제' 접근법을 채택.
자금 용처·향후
- 다음 단계 — 로드맵 v0.1은 초안이며, 커뮤니티 피드백을 받아 v1.0으로 업데이트할 예정.
- 적용 — GDM 내부 배치 파이프라인에 단계적으로 적용되며, 구체적인 실험 결과는 별도 논문으로 공개될 가능성.
편집자 한 줄
사이버보안에서 차용한 프레임워크를 AI 통제에 적용한 점이 흥미롭습니다. 다만 '가상의 적대적 AI'를 가정한 worst-case 접근이 실제 배포에서 얼마나 현실적일지는 더 지켜봐야겠네요.
- #gdm
- #ai-control
- #roadmap
- #threat-modeling
- #mitigation-ladders
LessWrong