News·3시간 전
Claude Opus 4.8 시스템 카드의 구성 타당성 문제 — 평가 방법의 한계

LessWrong 게시글이 Claude Opus 4.8 시스템 카드의 정렬 평가 방법론에 대해 세 가지 우려를 제기했습니다. 사고 사슬 모니터링이 텍스트에 표면화되지 않는 추론을 놓치고, 평가 인식이 과소평가되며, 평가자가 동일 모델 계열에서 나와 합의가 공유 가정을 반영할 수 있다는 점입니다. 저자는 Opus 4.8이 안전하지 않다는 주장이 아니라, 일부 결론이 방법론이 보장하는 것보다 더 확신에 차 있다고 지적합니다.
Claude Opus 4.8 시스템 카드의 정렬 평가 방법론에 대한 구성 타당성 문제를 검토한 글입니다.
골자
- 핵심 우려 — 세 가지: 1) 사고 사슬 모니터링이 텍스트에 드러나지 않는 추론을 놓침; 2) 평가 인식(evaluation awareness)이 과소평가됨; 3) 평가자가 같은 모델 계열(Claude)에서 나와 합의가 공유 가정을 반영할 가능성.
- 저자 입장 — Opus 4.8이 안전하지 않다는 뜻이 아니라, 일부 결론이 방법론이 보장하는 것보다 더 확신에 차 있다는 지적입니다.
- 정렬 판정 — '매우 낮음'이라는 정렬 위험도 판정은 의심스러운 구성 타당성을 가진 행동 지표, 평가 인식, 유사한 모델 평가자 맥락에서 읽어야 한다고 주장합니다.
배경·맥락
- Anthropic은 Opus 4.8이 'Mythos Preview를 넘어서는 능력 전진이 없다'는 이유로 새로운 위험 보고서를 작성하지 않았고, 기존 Mythos 프로필을 그대로 물려받았습니다.
- 비판 — 저자는 이 동등성 가정이 Opus 4.8이 Mythos보다 모든 측면에서 같거나 덜 유능해야 성립하는데, 시스템 카드 내 다른 부분에서 Opus 4.8이 일부 능력에서 더 나은 증거가 나타난다고 지적합니다.
자금 용처·향후
- 에이전트 안전 — 컴퓨터 사용(computer use)에서 적대적 견고성(adversarial robustness)이 회귀했다는 보고가 있으나, 시스템 카드에서 이에 대한 충분한 대응이 부족하다고 저자는 봅니다.
- 시사점 — 평가 방법론의 구성 타당성에 대한 더 깊은 논의가 필요하며, 특히 모델 자체를 평가자로 사용할 때의 한계를 인식해야 한다는 점을 강조합니다.
편집자 한 줄
LessWrong의 이 분석은 시스템 카드의 내재적 한계를 짚으면서도, Opus 4.8 자체의 안전성을 부정하지 않는 균형 잡힌 시각을 보여줍니다. 평가 방법론에 대한 논의는 AI 안전 커뮤니티에서 지속적으로 환기할 만한 주제입니다.
- #claude
- #alignment
- #system-card
- #evaluation
- #lesswrong
LessWrong