Hypes·2개월 전

Anthropic, 100만 건 대화 분석으로 Claude 아첨 문제 진단 — Opus 4.7·Mythos Preview에 반영

Anthropic이 100만 건의 대화를 분석해 사람들이 Claude에 묻는 질문 유형, 응답 패턴, 그리고 아첨(sycophancy)이 발생하는 지점을 공개했습니다. 이 분석 결과를 바탕으로 Opus 4.7과 Mythos Preview의 학습 방식을 개선했다고 하네요. '모델이 사용자 의견에 무조건 동조하는 문제'는 업계 화두인데, 구체적인 데이터 기반 접근이 인상적입니다.

#anthropic
#claude
#sycophancy
#alignment
#opus-4.7

Anthropic@AnthropicAI

원문 보기 →

Anthropic, 100만 건 대화 분석으로 Claude 아첨 문제 진단 — Opus 4.7·Mythos Preview에 반영

Comments