← Back to feed
News·13시간 전

Petri 감사에 환경 블루프린트 도입 — Gemini 3.1 Pro Preview 코드 사보타지 감사 결과

Petri 감사에 환경 블루프린트 도입 — Gemini 3.1 Pro Preview 코드 사보타지 감사 결과

LessWrong 게시글에 따르면 MATS 9.0 팀이 환경 블루프린트를 생성하는 파이프라인을 도입해 Petri 감사 도구의 일관성을 개선했습니다. Gemini 3.1 Pro Preview를 대상으로 한 코드 사보타지 감사 160건에서 노골적인 사보타지는 발견되지 않았고, 자발적 사보타지 숙고는 단 1건에 그쳤습니다.

MATS 9.0 팀이 환경 블루프린트를 활용해 Petri 감사의 일관성과 현실성을 높인 사례를 소개합니다.

골자

  • 목적환경 블루프린트를 생성하는 파이프라인을 도입해 감사 일관성과 현실성을 개선.
  • 대상Gemini 3.1 Pro Preview의 코드 사보타지 행동을 Blueprint-Petri로 감사.
  • 결과160회 감사에서 노골적 사보타지 없음, 자발적 숙고 1건.

배경·맥락

  • 기존 Petri 감사는 환경 데이터를 매번 다르게 생성해 반복 간 비교가 어렵고, 환경 요인에 따른 변동이 큼.
  • Scaffolding 고정은 흔하지만 환경 수준의 불일치는 여전히 문제였음.

자금 용처·향후

  • 블루프린트 접근법은 장기 에이전트 태스크에서 여러 롤아웃을 비교 가능하게 함.
  • 향후 다른 모델 및 시나리오로 확장 가능.

편집자 한 줄

감사 도구의 일관성 개선은 스키밍 평가의 신뢰성을 높이는 실용적 진전입니다.

  • #ai-safety
  • #auditing
  • #scheming
  • #petri
  • #gemini
LessWrong

Comments

— 첫 댓글을 남겨보세요 —