Ships·2개월 전

Anthropic, 정렬 도구 Petri 3.0 공개 — Meridian Labs에 기증

Anthropic이 오픈소스 정렬 평가 도구 Petri를 3.0으로 업데이트하고 Meridian Labs에 기증했습니다. 3.0에서는 평가자 모델과 대상 모델을 분리해 유연성을 높였고, 'Dish' 애드온으로 테스트 환경의 현실감을 개선했습니다. Petri는 Claude Sonnet 4.5 이후 모든 Claude 모델의 정렬 평가에 사용돼 왔으며, 영국 AI 보안 연구소(AISI)도 채택한 바 있습니다.

Anthropic이 자체 정렬 평가 도구 Petri를 3.0으로 업데이트하고, 개발을 Meridian Labs에 이관합니다.

핵심 변경

아키텍처 분리 — 평가자(auditor) 모델과 대상(target) 모델을 별도 컴포넌트로 분리해 각각 조정할 수 있게 됐습니다.
현실감 개선 — 애드온 'Dish'를 통해 실제 시스템 프롬프트와 스캐폴드를 사용해 테스트를 진행, 모델이 평가임을 눈치채는 문제를 완화했습니다.
통합 평가 — Petri가 Claude 모델의 정렬 평가 파이프라인에 정식 통합되어, Sonnet 4.5 이후 모든 버전에 적용됐습니다.

가격·가용성

Petri 3.0은 Meridian Labs를 통해 오픈소스로 계속 유지·배포됩니다.
기존 Petri 사용자는 별도 마이그레이션 없이 업데이트된 버전을 바로 사용할 수 있습니다.

제한·주의

Petri는 어디까지나 '평가 도구'이므로, 이 도구 하나로 완전한 정렬을 보장하지는 않습니다.
Dish 애드온은 아직 실험 단계로, 일부 시나리오에서 과도한 현실감으로 인해 평가 결과가 왜곡될 가능성이 있습니다.

편집자 한 줄

Petri가 외부 기관(AISI)에서 실제로 쓰인 사례가 공개된 점은 의미 있네요. 다만 '기증'이 사실상 유지보수 책임을 Meridian Labs에 넘기는 것인지, Anthropic 내부 개발이 중단되는지는 지켜볼 필요가 있습니다.

#anthropic
#petri
#alignment
#open-source

Anthropic

원문 보기 →

Anthropic, 정렬 도구 Petri 3.0 공개 — Meridian Labs에 기증

핵심 변경

가격·가용성

제한·주의

Comments