News·1개월 전

Claude Opus 4.8 시스템 카드의 구성 타당성 문제 — 평가 방법의 한계

LessWrong 게시글이 Claude Opus 4.8 시스템 카드의 정렬 평가 방법론에 대해 세 가지 우려를 제기했습니다. 사고 사슬 모니터링이 텍스트에 표면화되지 않는 추론을 놓치고, 평가 인식이 과소평가되며, 평가자가 동일 모델 계열에서 나와 합의가 공유 가정을 반영할 수 있다는 점입니다. 저자는 Opus 4.8이 안전하지 않다는 주장이 아니라, 일부 결론이 방법론이 보장하는 것보다 더 확신에 차 있다고 지적합니다.

Claude Opus 4.8 시스템 카드의 정렬 평가 방법론에 대한 구성 타당성 문제를 검토한 글입니다.

골자

핵심 우려 — 세 가지: 1) 사고 사슬 모니터링이 텍스트에 드러나지 않는 추론을 놓침; 2) 평가 인식(evaluation awareness)이 과소평가됨; 3) 평가자가 같은 모델 계열(Claude)에서 나와 합의가 공유 가정을 반영할 가능성.
저자 입장 — Opus 4.8이 안전하지 않다는 뜻이 아니라, 일부 결론이 방법론이 보장하는 것보다 더 확신에 차 있다는 지적입니다.
정렬 판정 — '매우 낮음'이라는 정렬 위험도 판정은 의심스러운 구성 타당성을 가진 행동 지표, 평가 인식, 유사한 모델 평가자 맥락에서 읽어야 한다고 주장합니다.

배경·맥락

Anthropic은 Opus 4.8이 'Mythos Preview를 넘어서는 능력 전진이 없다'는 이유로 새로운 위험 보고서를 작성하지 않았고, 기존 Mythos 프로필을 그대로 물려받았습니다.
비판 — 저자는 이 동등성 가정이 Opus 4.8이 Mythos보다 모든 측면에서 같거나 덜 유능해야 성립하는데, 시스템 카드 내 다른 부분에서 Opus 4.8이 일부 능력에서 더 나은 증거가 나타난다고 지적합니다.

자금 용처·향후

에이전트 안전 — 컴퓨터 사용(computer use)에서 적대적 견고성(adversarial robustness)이 회귀했다는 보고가 있으나, 시스템 카드에서 이에 대한 충분한 대응이 부족하다고 저자는 봅니다.
시사점 — 평가 방법론의 구성 타당성에 대한 더 깊은 논의가 필요하며, 특히 모델 자체를 평가자로 사용할 때의 한계를 인식해야 한다는 점을 강조합니다.

편집자 한 줄

LessWrong의 이 분석은 시스템 카드의 내재적 한계를 짚으면서도, Opus 4.8 자체의 안전성을 부정하지 않는 균형 잡힌 시각을 보여줍니다. 평가 방법론에 대한 논의는 AI 안전 커뮤니티에서 지속적으로 환기할 만한 주제입니다.

#claude
#alignment
#system-card
#evaluation
#lesswrong

LessWrong

원문 보기 →

Claude Opus 4.8 시스템 카드의 구성 타당성 문제 — 평가 방법의 한계

골자

배경·맥락

자금 용처·향후

Comments