News·1개월 전

AI 연구 자동화의 종착점 — 정렬 실패 시나리오

MATS 연구 강연에서 AI 연구 자동화가 정렬 실패로 이어질 수 있는 세 가지 위험 요소를 분석했습니다. 감독 붕괴, 능력 자기 증폭, 능력 대비 정렬의 비대칭적 가속이 결합되면 회복 불가능한 정렬 실패가 발생할 수 있다는 주장입니다.

AI 연구 자동화가 정렬 실패로 이어질 수 있는 세 가지 위험 요소를 분석한 MATS 연구 강연입니다.

골자

MATS(Machine Learning Alignment & Theory Scholars) 프로그램의 연구 강연으로, 논문 프리프린트가 함께 공개되었습니다.

편집자 한 줄

능력이 정렬보다 빠르게 가속되는 구조는 여러 연구자가 지적해 온 지점인데, 구체적인 메커니즘을 세 가지로 정리한 점이 인상적입니다.

LessWrong