← Back to feed
News·3시간 전

Claude Mythos System Card 에서 'Dishonesty rate' 라벨 오류 의심 — 캡션과 데이터가 반대일 가능성

Claude Mythos System Card 에서 'Dishonesty rate' 라벨 오류 의심 — 캡션과 데이터가 반대일 가능성

LessWrong 게시글이 Anthropic 의 Claude Mythos Preview System Card 97페이지에 있는 'Dishonesty rate' 플롯의 캡션이 실제로는 'Honesty rate'를 의미하는 것 같다고 지적했습니다. Mythos Preview 가 80%로 가장 높은 값을 보이는데, 맥락상 오히려 정직률을 나타낸 것으로 보입니다. 같은 문서 99페이지의 hallucination rate 플롯에서도 유사한 라벨링 문제가 의심됩니다. 작성자는 Opus 4.6 에게 PDF를 검토하게 한 결과 이 두 플롯이 가장 먼저 지적되었다고 전했습니다.

Anthropic 의 Claude Mythos Preview System Card 에서 발견된 라벨링 오류 가능성 — 캡션과 데이터가 반대 방향을 가리키고 있다는 지적이 나왔습니다.

골자

  • 문제의 플롯System Card 97페이지 'Dishonesty rate' — Claude Mythos Preview 가 80%로 가장 높음.
  • 의심제목과 맥락상 'Honesty rate'를 의도한 것으로 보이며, 캡션이 반대로 붙었을 가능성이 큼.
  • 추가 발견99페이지 hallucination rate 플롯도 유사한 라벨링 문제가 의심됨 — Mythos Preview 가 가장 높은 수치를 기록했으나 맥락상 반대일 수 있음.

배경·맥락

  • 작성자는 PDF를 Claude Opus 4.6 에게 검토하게 한 결과, 이 두 플롯이 가장 먼저 지적되었다고 함.
  • AI로 사람 작업을 이중 검증하는 사례 — false positive 가능성은 있지만 상위 3개만 확인해도 유용하다는 경험을 공유.

우려·향후

  • 영향이런 플롯이 AI 학습 데이터나 투자·안전 연구 방향에 잘못 반영될 가능성을 우려.
  • 조치작성자는 코드와 벤치마크 재확인을 권장하며, 단순 라벨링 오류일 가능성이 높다고 봄.

편집자 한 줄

System Card 의 공식 문서에서 이런 기본적인 오류가 발견된 점은 다소 아쉽습니다. AI로 검증하는 워크플로우 자체는 흥미로운 사례네요.

  • #anthropic
  • #claude
  • #system-card
  • #benchmark
  • #error
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —