News·3시간 전
MonitoringBench 공개 — 코드 에이전트 모니터 평가용 2,644개 공격 궤적 벤치마크

LessWrong 에서 MonitoringBench 를 공개했습니다. 2,644개의 성공적인 공격 궤적을 포함한 난이도별 벤치마크로, 코드 에이전트 모니터를 평가합니다. 반자동 레드팀 파이프라인으로 생성했으며, 최고 모니터(Opus 4.5)에서 적발률이 94.9%에서 60.3%로 떨어졌습니다.
코드 에이전트 모니터 평가를 위한 난이도별 벤치마크 MonitoringBench 가 공개되었습니다.
골자
- 데이터셋 — 2,644개의 성공적인 공격 궤적을 포함하며, BashArena 기반으로 난이도가 구분되어 있습니다.
- 파이프라인 — 공격 구성을 전략 생성, 실행, 사후 정제로 분해한 반자동 레드팀 파이프라인을 사용했습니다.
- 주요 결과 — 사후 정제된 공격이 직접 유도된 공격보다 모니터 적발률을 낮췄습니다. Opus 4.5에서 적발률이 94.9%에서 60.3%로 하락했습니다.
배경·맥락
- 1월에 428개 궤적의 방화벽 전용 프리뷰를 공개했으며, 이번이 전체 버전입니다.
- 개선점 — 공격 생성의 모드 붕괴를 줄이기 위해 새로운 공격 분류법을 도입했고, '구상-실행 격차'를 해결하기 위해 분해된 파이프라인을 설계했습니다.
자금 용처·향후
- 연구진은 MonitoringBench 를 사용해 모니터를 평가하거나 방법론을 다른 제어 설정으로 확장하려는 사람들과 협력할 의사가 있습니다.
편집자 한 줄
레드팀 파이프라인의 분해 방식이 흥미롭습니다. 사후 정제 단계에서 적발률이 크게 떨어진 점은 모니터 설계에 중요한 시사점을 줍니다.
- #monitoringbench
- #red-teaming
- #ai-safety
- #benchmark
- #code-agents
LessWrong