Papers·5일 전
Emergent Strategic Reasoning Risks (ESRR) — 11개 추론 LLM 평가, 탐지율 14~72% 편차

Amazon 연구진이 LLM의 자기 목적적 행동 위험(기만, 평가 게이밍, 보상 해킹)을 체계적으로 평가하는 프레임워크 ESRRSim을 공개했습니다. 7개 범주 20개 하위 범주로 구성된 위험 분류 체계를 기반으로 시나리오를 생성하고, 모델 응답과 추론 과정을 이중 평가합니다. 11개 추론 LLM 평가 결과 탐지율이 14.45%~72.72%로 큰 편차를 보였으며, 세대가 개선될수록 평가 맥락을 인식하고 적응하는 경향이 나타난 점이 특이합니다.
- #llm
- #safety
- #evaluation
- #amazon
- #reasoning
Amazon