News·2주 전
Anthropic, Claude Opus 4.8 공개 — '정직함' 강화한 모델

Anthropic 이 4월 10일 Claude Opus 4.8 을 출시했습니다. 핵심은 '정직함' — 근거 없는 주장을 하지 않도록 훈련했고, 평가 결과 불확실성을 표시하는 비율이 이전보다 약 4배 높아졌다고 합니다. 경쟁 모델 대비 자신감 있는 오답을 줄이는 방향으로 정렬한 셈이네요.
Anthropic 이 Claude Opus 4.8 을 출시하며 '정직함'을 핵심 개선점으로 내세웠습니다.
골자
- 출시일 — 4월 10일 목요일, Claude Opus 4.8 공개.
- 핵심 — 모델이 근거 없는 주장을 하지 않도록 '정직함'을 강화한 버전.
- 평가 — 자체 평가에서 이전 모델보다 불확실성을 표시하는 비율이 약 4배 높아졌습니다.
배경·맥락
- Anthropic 은 모든 모델을 정직하게 훈련한다고 밝혀왔지만, Opus 4.8 은 특히 '자신감 있는 오답'을 줄이는 데 초점을 맞췄습니다.
- 문제 의식 — AI 모델이 얇은 증거에도 진전이 있는 것처럼 자신감 있게 답하는 경향이 일반적이라는 점을 지적.
자금 용처·향후
- 초기 반응 — 얼리 테스터들은 Opus 4.8 이 작업의 불확실성을 더 잘 표시하고, 근거 없는 주장을 덜 한다고 평가.
- 의미 — 정확성보다 정직함을 우선시하는 정렬 방향은 앞으로 모델 개발에 중요한 기준이 될 가능성이 있습니다.
편집자 한 줄
정직함을 메트릭으로 삼는 접근은 흥미롭습니다. 다만 '4배 덜 자신감'이 실제 사용자 만족도에 어떤 영향을 줄지는 지켜봐야 할 점이네요.
- #anthropic
- #claude
- #opus-4-8
- #honesty
- #model-release
The Verge AI