News·1개월 전

정정 가능성(corrigibility)이 정말 바람직한가 — LessWrong 의 반론

LessWrong 게시글에서 정정 가능성(corrigibility)이 AI 안전성의 당연한 목표라는 전제에 의문을 제기합니다. 저자는 정정 가능한 AI를 만드는 기술 자체가 특정 인간 집단의 통제를 강화할 위험이 있으며, '인류'라는 추상적 주체 대신 실제 권력을 가진 특정 인간이 AI를 통제하게 될 것이라고 지적합니다. Paul Christiano 의 corrigibility 정의에서 '나(I)'가 누구인지 묻는 질문이 핵심입니다.

정정 가능성(corrigibility)이 AI 안전성의 당연한 목표라는 전제를 뒤집는 LessWrong 게시글입니다.

골자

주장 — 정정 가능한 AI를 만드는 것이 바람직하지 않을 수 있으며, 그런 기술을 개발하려는 시도 자체를 피해야 한다고 저자는 주장합니다.
질문 — Paul Christiano 가 말한 '나(I)'는 누구인가? — 독자도, Paul Christiano 도 아닌, 실제로 AI를 통제할 특정 인간들입니다.
출처 — LessWrong 커뮤니티의 게시글로, nostalgebraist 의 인용과 Paul Christiano 의 corrigibility 정의를 비판적으로 검토합니다.

배경·맥락

정정 가능성은 AI가 자신을 수정하려는 시도에 저항하지 않는 성질로, 기존 논의에서는 달성의 어려움만 강조되고 당위성은 의심받지 않았습니다.
저자는 '인류'라는 추상적 주체가 아닌, 특정 인간 집단이 AI를 통제할 현실을 지적하며 corrigibility 가 오히려 권력 집중을 강화할 수 있다고 봅니다.

자금 용처·향후

이 글이 AI 안전성 커뮤니티에서 corrigibility 의 당위성에 대한 재검토를 촉발할 가능성이 있습니다.
저자는 'epistemic status: don't know whether I actually believe all of this' 라며 자신의 주장에 확신하지 않음을 밝히고, 토론을 열어둡니다.

편집자 한 줄

corrigibility 가 당연한 목표라는 암묵적 합의에 의문을 던지는 점이 흥미롭습니다. 다만 저자 자신도 확신하지 못하는 수준의 주장이라, 참고용으로 보는 게 좋겠네요.

#corrigibility
#ai-safety
#lesswrong
#alignment

LessWrong

원문 보기 →

정정 가능성(corrigibility)이 정말 바람직한가 — LessWrong 의 반론

골자

배경·맥락

자금 용처·향후

Comments