← Back to feed
News·2주 전

Claude Opus 4.8, 스타일로메트릭 식별 능력 0% — 4.7 대비 급감

Claude Opus 4.8 이 사용자 글쓰기 스타일로 신원을 식별하는 작업을 4.7 대해 훨씬 높은 비율로 거부하고, 추측 시에도 정확도가 0% 로 떨어졌습니다. LessWrong 사용자 테스트 결과, 4.7 은 불완전하지만 간헐적으로 식별에 성공했으나 4.8 은 전혀 못 맞추는 셈이네요.

Claude Opus 4.8 이 사용자 식별 작업에서 완전히 실패한다는 실험 결과가 나왔습니다.

골자

  • 버전Claude Opus 4.8, 4.7 대비 스타일로메트릭 식별 거부율 대폭 증가.
  • 정확도추측 시에도 식별 성공률 0% — 4.7 은 간헐적 성공이 있었습니다.
  • 테스터LessWrong 사용자 본인 기준, 인터넷상 극소수 존재감인 인물.

배경·맥락

  • 이전 게시물 'Claude knows who you are' 의 후속 실험.
  • 4.7동일 작업에서 불완전했지만 시간에 따라 능력 변동이 관찰됨.
  • 재현성타인 실험에서도 성공률이 각기 달랐습니다.

편집자 한 줄

거부율 증가와 정확도 0% 는 단순한 안전장치 강화 이상으로 보이는데, 모델이 개인 식별에 사용될 수 있는 패턴 자체를 학습하지 않도록 조정된 걸 수도 있겠네요.

  • #claude
  • #anthropic
  • #stylometry
  • #lesswrong
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —