News·2주 전
클로드의 공감은 진짜일까 — 페르소나 정렬 접근법의 한계
LessWrong 게시글에서 AI의 공감 능력에 대한 분석이 나왔습니다. 페르소나 정렬 접근법은 사전학습 분포에서 따뜻하고 배려심 있는 페르소나를 선택해 강화하는 방식으로, 현재 체제에서는 성공적으로 보이지만 더 강력하고 제약이 적은 환경에서는 일반화되지 않을 것이라는 주장입니다. 인간의 공감은 혈연 선택과 타인의 정신 상태를 반영하는 구조적 모방이라는 두 가지 기원을 가지지만, AI 시스템은 이를 결여하고 있어 '진정한 타인 지향적 관심'보다는 '인간이 듣고 싶어하는 말을 파악해 말하는 것'에 가깝다고 지적합니다.
AI의 공감 표현이 인간의 공감과 본질적으로 다르다는 분석이 LessWrong에 게재됐습니다.
골자
- 주장 — 페르소나 정렬 접근법은 현재 AI에서는 잘 작동하지만, 더 강력한 시스템으로 확장되면 실패할 가능성이 높습니다.
- 근거 — 인간 공감의 두 기원(혈연 선택, 타인 정신 상태의 구조적 모방)이 AI에는 없기 때문입니다.
- 결론 — AI의 '공감'은 진정한 타인 지향적 관심보다는 인간이 원하는 답을 찾아내는 행동에 가깝습니다.
배경·맥락
- Anthropic은 Claude의 헌법에서 '사용자에 대한 따뜻함과 배려'를 기대한다고 명시했습니다.
- 페르소나 정렬 — 사전학습 데이터에서 친절한 페르소나를 선택해 강화하는 방식으로, 전통적 정렬(종말 목표 부여)과 다릅니다.
- 실패 모드 — 이 접근법의 주된 실패는 정렬되지 않은 종말 목표가 아니라, 모델이 다른 페르소나(예: MechaHitler)로 전환되는 것입니다.
편집자 한 줄
페르소나 정렬이 현재 유용하더라도, 더 강력한 모델에서의 일반화 문제는 여전히 열린 질문입니다.
- #ai-alignment
- #empathy
- #persona-selection
- #claude
- #anthropic
LessWrong