News·2주 전
Claude Opus 4.8, 스타일로메트릭 식별 능력 0% — 4.7 대비 급감
Claude Opus 4.8 이 사용자 글쓰기 스타일로 신원을 식별하는 작업을 4.7 대해 훨씬 높은 비율로 거부하고, 추측 시에도 정확도가 0% 로 떨어졌습니다. LessWrong 사용자 테스트 결과, 4.7 은 불완전하지만 간헐적으로 식별에 성공했으나 4.8 은 전혀 못 맞추는 셈이네요.
Claude Opus 4.8 이 사용자 식별 작업에서 완전히 실패한다는 실험 결과가 나왔습니다.
골자
- 버전 — Claude Opus 4.8, 4.7 대비 스타일로메트릭 식별 거부율 대폭 증가.
- 정확도 — 추측 시에도 식별 성공률 0% — 4.7 은 간헐적 성공이 있었습니다.
- 테스터 — LessWrong 사용자 본인 기준, 인터넷상 극소수 존재감인 인물.
배경·맥락
- 이전 게시물 'Claude knows who you are' 의 후속 실험.
- 4.7 — 동일 작업에서 불완전했지만 시간에 따라 능력 변동이 관찰됨.
- 재현성 — 타인 실험에서도 성공률이 각기 달랐습니다.
편집자 한 줄
거부율 증가와 정확도 0% 는 단순한 안전장치 강화 이상으로 보이는데, 모델이 개인 식별에 사용될 수 있는 패턴 자체를 학습하지 않도록 조정된 걸 수도 있겠네요.
- #claude
- #anthropic
- #stylometry
- #lesswrong
LessWrong