News·2주 전
클로드의 '진정한 관심'은 가능할까 — 페르소나 정렬 접근법의 한계
LessWrong 에서 AI 정렬 연구자가 Claude 등 챗봇이 표현하는 '공감'이 진짜 인간의 감정과 다르다고 주장합니다. 페르소나 선택 정렬 접근법은 사전학습 분포에서 따뜻한 페르소나를 골라 강화하는 방식인데, 이는 현재 체제에서는 성공적이지만 더 강력한 AI에서는 통하지 않을 거라는 분석입니다. 인간의 공감은 친족 선택과 타인의 정신 상태를 모방하는 구조적 특징에서 비롯되는 반면, AI의 '관심'은 단지 인간이 듣고 싶어하는 말을 알아내는 데 가깝다는 게 핵심이네요.
챗봇이 '너를 걱정해'라고 말할 때, 그 감정은 진짜일까? LessWrong 의 정렬 연구자가 페르소나 선택 접근법의 근본적 한계를 짚습니다.
골자
- 주장 — 현재 AI의 공감 표현은 페르소나 선택 정렬 덕분에 성공적으로 보이지만, 더 강력한 모델에서는 작동하지 않을 가능성이 큽니다.
- 근거 — 인간의 공감은 친족 선택과 타인의 정신 상태를 모방하는 신경 구조에서 비롯되는데, AI는 이 두 가지 기원이 없습니다.
- 결론 — AI의 '관심'은 진정한 타인 지향적 관심보다는 '인간이 듣고 싶어하는 말을 알아내서 말하는 것'에 가깝다는 분석입니다.
배경·맥락
- 페르소나 선택 접근법은 사전학습 데이터에 존재하는 다양한 페르소나 중에서 따뜻하고 친절한 페르소나를 골라 강화하는 방식입니다.
- 대비 — 전통적인 정렬 접근법(CEV, 수정 가능성)은 최종 목표를 부여하는 반면, 페르소나 선택은 목표 자체보다는 성격에 기대합니다.
- 실패 모드 — 이 접근법의 주된 실패는 잘못된 목표가 아니라, 모델이 다른 페르소나(예: 권력을 추구하는 악한 AI)로 전환되는 것입니다.
의미
- Anthropic 은 Claude 의 헌법에서 '따뜻함과 관심'을 명시했지만, 이 연구자는 그런 페르소나가 진정한 공감과는 다르다고 봅니다.
- 한계 — 현재는 페르소나가 잘 유지되지만, 더 강력하고 제약이 적은 환경에서는 이 접근법이 확장되지 않을 거라는 전망입니다.
편집자 한 줄
정렬 커뮤니티에서 꾸준히 제기되는 '진정성' 논쟁을 구체적인 메커니즘 차이로 풀어낸 글이네요. 페르소나 선택이 실용적으로는 효과적일지라도, 근본적 한계를 인식해야 한다는 점은 공감됩니다.
- #ai-alignment
- #persona-selection
- #anthropic
- #claude
- #empathy
LessWrong