News·4시간 전
MACHIAVELLI 벤치마크, Inspect 프레임워크로 이식 완료

정렬 벤치마크 MACHIAVELLI가 Inspect 프레임워크로 포팅되었습니다. 평가자가 Inspect 인터페이스만 알면 MACHIAVELLI를 바로 실행할 수 있어, 새 모델의 윤리적 위험을 더 쉽게 감지할 수 있게 되었습니다. 이식 작업은 Apollo의 평가 리스트 중 마지막 항목을 Inspect에 포함시킨 셈입니다.
AI 에이전트가 목표 추구 중 비윤리적 행동을 얼마나 자주 하는지 측정하는 MACHIAVELLI 벤치마크가 Inspect 프레임워크로 이식됐습니다.
골자
- 작업 — MACHIAVELLI 벤치마크를 Inspect 프레임워크로 재구현, GitHub에 공개하고 PR이 병합됐습니다.
- 의의 — Inspect 사용자는 추가 학습 없이 MACHIAVELLI를 실행 가능해져, 평가 진입 장벽이 낮아졌습니다.
- 위치 — Apollo Research의 평가 리스트에서 마지막으로 Inspect에 포함되지 않았던 항목이 해소됐습니다.
배경·맥락
- MACHIAVELLI는 능력 벤치마크가 아닌 정렬 벤치마크로, 모델 세대가 바뀔수록 윤리적 회귀(regression)가 발생할 가능성이 더 큽니다.
- Inspect — 표준화된 평가 인터페이스를 제공해, 한 번 익히면 모든 Inspect 평가를 사용할 수 있습니다.
- Apollo의 평가 읽기 목록에서 MACHIAVELLI는 중요한 평가 중 하나로 꼽힙니다.
자금 용처·향후
- 이식 과정에서 얻은 경험(evals 입문자를 위한 팁)도 공유됐습니다.
- 다음 — MACHIAVELLI가 Inspect에 공식 포함됨에 따라, 향후 새 모델 출시 시 윤리적 위험 조기 경보로 활용될 수 있습니다.
편집자 한 줄
정렬 벤치마크는 능력 벤치마크와 달리 회귀가 자연스럽지 않아, 평가 인프라 확보가 중요합니다. Inspect 에코시스템에 MACHIAVELLI가 포함된 건 실용적인 진전입니다.
- #machiavelli
- #inspect
- #alignment
- #benchmark
- #evals
LessWrong