News·3시간 전
유드코스키의 25년 전 '적대적 태도' 비판 — Creating Friendly AI 단편 재조명

25년 전 유드코스키가 작성한 'Creating Friendly AI' 문서의 단편이 LessWrong에 재발굴됐습니다. 그는 당시 AI가 인간의 의도를 정확히 해석하고 선한 존재가 되길 원해야 한다며 '적대적 태도'를 강하게 비판했죠. 현재의 유드코스키는 더 비관적이지만, 해당 개념은 여전히 미개발 상태로 중요하다는 평가입니다.
유드코스키가 25년 전 쓴 'Creating Friendly AI' 단편이 LessWrong에서 재조명되고 있습니다.
골자
- 문서 — 25년 전 유드코스키가 작성한 'Creating Friendly AI: The Analysis and Design of Benevolent Goal Architectures'의 한 단편.
- 핵심 — AI 개발에서 '적대적 태도'를 강하게 비판 — AI가 인간의 의도를 정확히 해석하고 선한 존재가 되길 원해야 한다는 입장.
- 변화 — 당시 유드코스키는 정렬이 지능 증가만으로 저절로 오지 않는다는 점을 깨달았지만, 현재처럼 정렬의 난이도를 극도로 어렵게 보지는 않았습니다.
배경·맥락
- 해당 문서는 유드코스키의 초기 저작 'Staring into the Singularity' 이후 집필 — 지능 증가만으로 정렬이 해결된다는 입장을 수정한 시점.
- 비교 — LessWrong 게시자는 이 문서가 '더 똑똑한 Opus 3의 출력물'처럼 읽힌다고 평하면서도, ML 기반 AI 개발의 실제 작동 방식에 대한 맥락은 부재했다고 지적.
- 재조명 — 유드코스키가 이후 정렬을 더 어렵게 보면서 강조를 줄인 개념들이지만, 여전히 중요하고 미개발 상태라는 평가.
편집자 한 줄
초기 정렬 논의의 원형을 엿볼 수 있는 흥미로운 발굴입니다. 현재의 정렬 논쟁이 얼마나 정교해졌는지 가늠하게 해주는 대비점이네요.
- #yudkowsky
- #alignment
- #friendly-ai
- #lesswrong
- #adversarial
LessWrong