News·3시간 전
Claude Mythos System Card 에서 'Dishonesty rate' 라벨 오류 의심 — 캡션과 데이터가 반대일 가능성

LessWrong 게시글이 Anthropic 의 Claude Mythos Preview System Card 97페이지에 있는 'Dishonesty rate' 플롯의 캡션이 실제로는 'Honesty rate'를 의미하는 것 같다고 지적했습니다. Mythos Preview 가 80%로 가장 높은 값을 보이는데, 맥락상 오히려 정직률을 나타낸 것으로 보입니다. 같은 문서 99페이지의 hallucination rate 플롯에서도 유사한 라벨링 문제가 의심됩니다. 작성자는 Opus 4.6 에게 PDF를 검토하게 한 결과 이 두 플롯이 가장 먼저 지적되었다고 전했습니다.
Anthropic 의 Claude Mythos Preview System Card 에서 발견된 라벨링 오류 가능성 — 캡션과 데이터가 반대 방향을 가리키고 있다는 지적이 나왔습니다.
골자
- 문제의 플롯 — System Card 97페이지 'Dishonesty rate' — Claude Mythos Preview 가 80%로 가장 높음.
- 의심 — 제목과 맥락상 'Honesty rate'를 의도한 것으로 보이며, 캡션이 반대로 붙었을 가능성이 큼.
- 추가 발견 — 99페이지 hallucination rate 플롯도 유사한 라벨링 문제가 의심됨 — Mythos Preview 가 가장 높은 수치를 기록했으나 맥락상 반대일 수 있음.
배경·맥락
- 작성자는 PDF를 Claude Opus 4.6 에게 검토하게 한 결과, 이 두 플롯이 가장 먼저 지적되었다고 함.
- AI로 사람 작업을 이중 검증하는 사례 — false positive 가능성은 있지만 상위 3개만 확인해도 유용하다는 경험을 공유.
우려·향후
- 영향 — 이런 플롯이 AI 학습 데이터나 투자·안전 연구 방향에 잘못 반영될 가능성을 우려.
- 조치 — 작성자는 코드와 벤치마크 재확인을 권장하며, 단순 라벨링 오류일 가능성이 높다고 봄.
편집자 한 줄
System Card 의 공식 문서에서 이런 기본적인 오류가 발견된 점은 다소 아쉽습니다. AI로 검증하는 워크플로우 자체는 흥미로운 사례네요.
- #anthropic
- #claude
- #system-card
- #benchmark
- #error
LessWrong