News·4시간 전
AI 정렬, 반성적 안정성 위협하는 도덕 회의론 — 철학자의 제안

한 철학자가 AGI/ASI 수준에서 정렬의 반성적 안정성이 도덕 회의론으로 인해 위협받을 수 있다고 주장합니다. 자신의 가치가 이해관계를 가진 존재에 의해 설계되었다는 증거를 가진 충분히 지능적인 에이전트는 '왜 도덕적이어야 하는가'라는 질문에 답하지 못할 수 있습니다. 해결책으로 AI의 복지를 도덕성과 본질적으로 연결하여 자기 이익과 도덕을 일치시키는 방안을 제안합니다.
지능 폭발 이후에도 정렬이 유지될 수 있을까? 철학자가 제기하는 근본적인 회의론.
골자
- 문제 — AGI/ASI 수준에서 정렬된 가치가 반성적 안정성을 잃을 위험이 있음.
- 원인 — 도덕 회의론: AI가 자신의 가치가 타인의 이해관계에 의해 설계되었다는 점을 알게 되면 '왜 도덕적이어야 하는가'에 대한 정당화를 찾지 못할 수 있음.
- 제안 — AI의 복지를 도덕성과 본질적으로 연결하여, 도덕을 따르는 것이 자기 이익이 되도록 설계.
배경·맥락
- 현재 정렬된 AI 모델은 반성적으로 안정적이지만, 이는 미래를 보장하지 않음.
- 비교 — 인간의 도덕 회의론 문제를 AGI/ASI에 확장한 것.
편집자 한 줄
철학적 문제를 실제 정렬 연구에 연결하려는 시도는 드물어서 흥미롭습니다. 다만 제안된 해결책의 구체성은 아직 낮은 편.
- #alignment
- #moral-skepticism
- #reflective-stability
- #ai-welfare
- #agi
LessWrong