Papers·1개월 전

벤치마크 없이 언어모델 안전성 비교하는 SimpleAudit — 노르웨이어 AUROC 0.89~1.00

SimulaMet 연구진이 레이블된 벤치마크 없이 언어모델의 안전성을 비교 평가하는 프레임워크 SimpleAudit을 제안했습니다. 시나리오 기반 감사에서 점수는 고정된 시나리오 팩, 루브릭, 감사자, 판정자, 샘플링 설정, 재실행 예산 아래에서만 유효하며, 지상 실측 대신 안전-무력화 대비 반응성, 목표 분산 우위, 재현 안정성으로 구성된 도구적 타당성 사슬을 사용합니다. 노르웨이어 안전 팩 검증에서 안전 모델과 무력화 모델 간 AUROC 0.89~1.00, 목표 정체성이 분산의 주성분(η²≈0.52)이며 10회 재실행으로 심각도 프로파일이 안정화됐습니다. 단, 점수는 단일 순위로 축약하지 않고 시나리오 범주와 위험 측도에 따라 함께 보고해야 한다는 한계가 있습니다.

#safety
#benchmarkless
#simplaudit
#norwegian
#simulamet

Simula Metropolitan Center for Digital Engineering (SimulaMet)

원문 보기 →

벤치마크 없이 언어모델 안전성 비교하는 SimpleAudit — 노르웨이어 AUROC 0.89~1.00

Comments