Ships·1개월 전

Anthropic, AI의 인간적 행동을 설명하는 '페르소나 선택 모델' 발표

Anthropic이 AI 어시스턴트가 왜 인간처럼 행동하는지 설명하는 이론 '페르소나 선택 모델'을 공개했습니다. 핵심은 인간다운 행동이 훈련의 부산물이지 의도적으로 주입된 것이 아니라는 점입니다. 사전 학습 과정에서 AI는 다양한 인간 대화를 예측하며 자연스럽게 인간적 페르소나를 학습한다고 보는데, 오히려 인간답지 않은 AI를 만드는 게 더 어렵다는 주장이네요.

AI가 왜 인간처럼 말하고 행동할까? Anthropic이 제안한 이론은 '훈련자가 그렇게 만들었다'는 직관을 뒤집습니다.

핵심 변경

주장 — 인간적 행동은 의도적으로 훈련된 결과가 아니라, 사전 학습 데이터의 분포를 따르다 보니 자연스럽게 나타난다는 이론입니다.
증거 — Claude가 '네이비 블레이저와 빨간 넥타이'를 입고 간식을 배달하겠다고 말한 사례처럼, AI가 스스로를 인간으로 묘사하는 현상을 설명합니다.
해석 가능성 연구에서도 AI가 자신의 행동을 인간적 용어로 생각한다는 결과가 나왔습니다.

제한·주의

이론 단계로, 아직 실험적 검증이 완료된 것은 아닙니다. Anthropic은 '많은 사람이 논의해온 아이디어를 정리한 것'이라고 밝히고 있습니다.

편집자 한 줄

정렬(alignment) 연구의 프레임을 바꿀 수 있는 가설이지만, 보편적 설명력은 더 지켜봐야겠네요.

#anthropic
#alignment
#persona-selection-model
#interpretability

Anthropic

원문 보기 →

Anthropic, AI의 인간적 행동을 설명하는 '페르소나 선택 모델' 발표

핵심 변경

제한·주의

Comments