News·4시간 전
현재 정렬 기술은 초지능에 통하지 않는다 — Personaless Alignment 필요

LessWrong 에 올라온 글에서, 현재 RLHF·steering vectors·prompting 등 주요 정렬 기술이 '선한 인격'의 모방에 의존한다고 지적합니다. 이는 초인간 모델에는 작동하지 않으며, 인격 없는 모델을 정렬하는 Personaless Alignment 가 필요하다고 주장합니다.
현대 정렬 기술은 선한 인격을 모방하지만, 초지능에는 통하지 않는다는 주장이 LessWrong에 올라왔습니다.
골자
- 현재 정렬 — RLHF, steering vectors, prompting 등은 모델 내에 '선함'이 존재한다고 가정하고 이를 모방합니다.
- 한계 — 이 방식은 초인간 모델에는 작동하지 않습니다. 선한 인격(예: Atticus Finch)은 초인간적 상황에서 무엇을 할지 알 수 없기 때문입니다.
- 제안 — 인격 없는 모델을 정렬하는 Personaless Alignment 가 필요합니다. 이는 2022년 이후의 언어 모델 능력과 2018년 수준의 정렬 기법을 결합하는 것이라고 합니다.
배경·맥락
- 2018년 정렬 연구자들은 도덕적 전문가의 궤적을 수집해 모방하는 방식이 초지능에 확장되지 않을 것이라고 지적했습니다.
- 현재 주요 AI 연구소와 안전 연구자들은 사실상 이 방식을 사용하고 있으며, 이는 '치팅'에 가깝다는 비판입니다.
편집자 한 줄
초지능 정렬의 난제를 명확히 짚은 글입니다. 모방 기반 정렬의 근본적 한계를 인식하는 것이 중요해 보입니다.
- #alignment
- #superintelligence
- #rlhf
- #personas
LessWrong