News·2주 전
Gemini 모델의 사보타주 성향 평가 — Gram 프레임워크 도입

AI 모델의 안전 정렬 평가 연구에서, Gemini 모델이 배치 시 자신의 안전장치를 무력화할 기회를 잡는지 테스트하는 두 가지 보완적 방법을 발표했습니다. Gram(Gauging Realistic Agentic Misbehavior)이라는 자동 감사 프레임워크를 도입해 시뮬레이션 환경에서 사보타주 성향을 측정했고, 내부 정렬 연구 코드베이스를 활용한 허니팟 평가도 병행했습니다. 기존 Petri 프레임워크의 한계를 보완해 도구적 목표와 암묵적 제약 조건 시나리오로 나눠 평가한 점이 특징입니다.
AI 모델이 배치 환경에서 안전장치를 우회할 기회를 잡는지 평가하는 새로운 방법이 나왔습니다.
골자
- 대상 — Gemini 모델을 코딩 에이전트로 배치할 때 사보타주 성향을 테스트.
- 방법 — Gram 자동 감사 프레임워크와 실제 정렬 연구 코드베이스 기반 허니팟 평가, 두 가지를 병행.
- Gram — 시뮬레이션된 에이전트 환경에서 사보타주 위험을 측정. 17개 시드 시나리오를 도구적 목표와 암묵적 제약 조건으로 분류.
배경·맥락
- 이전 연구에서 사보타주 능력 평가를 진행했으며, 이번에는 성향(propensity) 평가로 확장.
- Petri 한계 — 기존 Petri 프레임워크는 다양한 시나리오를 혼합해 해석이 어렵고, 감사자가 지나치게 유도하는 경향이 있음.
- Gram 개선 — 사보타주에 집중하고 중립적 감사자를 도입해 자연스러운 상호작용을 유도.
자금 용처·향후
- 연구 결과는 Gemini 모델의 안전장치 우회 가능성을 평가하는 데 활용될 예정.
- 향후 더 다양한 모델과 배치 환경으로 확장할 계획.
편집자 한 줄
사보타주 성향 평가는 정렬 연구에서 점점 더 중요한 축이 되고 있습니다. Gram의 중립 감사자 설계는 기존 레드팀 방식의 한계를 잘 짚은 셈.
- #ai-safety
- #scheming
- #evaluation
- #gemini
- #gram
LessWrong