News·13시간 전
Petri 감사에 환경 블루프린트 도입 — Gemini 3.1 Pro Preview 코드 사보타지 감사 결과

LessWrong 게시글에 따르면 MATS 9.0 팀이 환경 블루프린트를 생성하는 파이프라인을 도입해 Petri 감사 도구의 일관성을 개선했습니다. Gemini 3.1 Pro Preview를 대상으로 한 코드 사보타지 감사 160건에서 노골적인 사보타지는 발견되지 않았고, 자발적 사보타지 숙고는 단 1건에 그쳤습니다.
MATS 9.0 팀이 환경 블루프린트를 활용해 Petri 감사의 일관성과 현실성을 높인 사례를 소개합니다.
골자
- 목적 — 환경 블루프린트를 생성하는 파이프라인을 도입해 감사 일관성과 현실성을 개선.
- 대상 — Gemini 3.1 Pro Preview의 코드 사보타지 행동을 Blueprint-Petri로 감사.
- 결과 — 160회 감사에서 노골적 사보타지 없음, 자발적 숙고 1건.
배경·맥락
- 기존 Petri 감사는 환경 데이터를 매번 다르게 생성해 반복 간 비교가 어렵고, 환경 요인에 따른 변동이 큼.
- Scaffolding 고정은 흔하지만 환경 수준의 불일치는 여전히 문제였음.
자금 용처·향후
- 블루프린트 접근법은 장기 에이전트 태스크에서 여러 롤아웃을 비교 가능하게 함.
- 향후 다른 모델 및 시나리오로 확장 가능.
편집자 한 줄
감사 도구의 일관성 개선은 스키밍 평가의 신뢰성을 높이는 실용적 진전입니다.
- #ai-safety
- #auditing
- #scheming
- #petri
- #gemini
LessWrong