News·1개월 전

현재 정렬 기술은 초지능에 통하지 않는다 — Personaless Alignment 필요

LessWrong 에 올라온 글에서, 현재 RLHF·steering vectors·prompting 등 주요 정렬 기술이 '선한 인격'의 모방에 의존한다고 지적합니다. 이는 초인간 모델에는 작동하지 않으며, 인격 없는 모델을 정렬하는 Personaless Alignment 가 필요하다고 주장합니다.

현대 정렬 기술은 선한 인격을 모방하지만, 초지능에는 통하지 않는다는 주장이 LessWrong에 올라왔습니다.

골자

현재 정렬 — RLHF, steering vectors, prompting 등은 모델 내에 '선함'이 존재한다고 가정하고 이를 모방합니다.
한계 — 이 방식은 초인간 모델에는 작동하지 않습니다. 선한 인격(예: Atticus Finch)은 초인간적 상황에서 무엇을 할지 알 수 없기 때문입니다.
제안 — 인격 없는 모델을 정렬하는 Personaless Alignment 가 필요합니다. 이는 2022년 이후의 언어 모델 능력과 2018년 수준의 정렬 기법을 결합하는 것이라고 합니다.

배경·맥락

2018년 정렬 연구자들은 도덕적 전문가의 궤적을 수집해 모방하는 방식이 초지능에 확장되지 않을 것이라고 지적했습니다.
현재 주요 AI 연구소와 안전 연구자들은 사실상 이 방식을 사용하고 있으며, 이는 '치팅'에 가깝다는 비판입니다.

편집자 한 줄

초지능 정렬의 난제를 명확히 짚은 글입니다. 모방 기반 정렬의 근본적 한계를 인식하는 것이 중요해 보입니다.

#alignment
#superintelligence
#rlhf
#personas

LessWrong

원문 보기 →

현재 정렬 기술은 초지능에 통하지 않는다 — Personaless Alignment 필요

골자

배경·맥락

Comments