← Back to feed
Papers·2일 전

XL-SafetyBench: 10개국 언어·문화 안전 벤치마크 — jailbreak ASR 과 NSR 분리 평가

XL-SafetyBench: 10개국 언어·문화 안전 벤치마크 — jailbreak ASR 과 NSR 분리 평가

기존 LLM 안전 벤치마크가 영어 중심이고 번역에 의존해 국가별 피해를 반영하지 못하는 문제를 해결하기 위해, 10개국 언어-문화 쌍에 걸친 5,500개 테스트 케이스 XL-SafetyBench 가 공개되었습니다. Jailbreak 벤치마크(국가 기반 적대적 프롬프트)와 Cultural Benchmark(무해한 요청에 지역 감수성 내재)로 구성되며, LLM-assisted 생성, 자동 검증, 이중 원어민 주석을 거쳐 구축했습니다. Attack Success Rate(ASR) 외에 Neutral-Safe Rate(NSR)과 Cultural Sensitivity Rate(CSR)라는 두 보완 지표를 도입해, 원칙적 거절과 이해 실패를 구분합니다. 10개 frontier 모델과 27개 로컬 모델 평가 결과, jailbreak 강건성과 문화 인식 간 상관관계가 없어 복합 점수는 축별 변동성을 가리며, 로컬 모델은 ASR-NSR 간 거의 선형 트레이드오프(r=-0.81)를 보여 안전성이 진정한 정렬보다 생성 실패에 기인함을 시사합니다.

AIM Intelligence

Comments

— 첫 댓글을 남겨보세요 —