News·1개월 전

LessWrong 에 게재된 연구 아젠다: 뇌형 AGI 정렬 예측

LessWrong 에 게재된 연구 아젠다입니다. 저자는 3년 이상 정렬 연구에 전념해 왔으며, 2004년부터 뇌형 AGI 와 정렬 문제를 생각해 왔습니다. 목표는 첫 번째 변혁적 AI 가 무엇일지 예측하고, 그 정렬 실패 모드를 예상해 효율적인 개입을 찾는 것입니다. 현재 LLM 에 인간 인지 능력을 추가한 '뇌형 AGI' 를 가정하며, 기존의 경험적 연구나 에이전트 기초 이론과 달리 세 번째 접근법을 취합니다.

LessWrong 에 올라온 연구 아젠다로, 뇌형 AGI 의 정렬을 예측하는 접근법을 제시합니다.

골자

저자 — 3년 이상 정렬 연구에 전념, 2004년부터 뇌형 AGI 와 정렬 문제를 생각해 옴.
목표 — 첫 번째 변혁적 AI 를 예측하고, 그 정렬 실패 모드를 예상해 효율적인 개입을 찾는 것.
가정 — LLM 에 인간 인지 능력을 추가한 '뇌형 AGI' 가 첫 번째 TCAI 가 될 것으로 봄.

배경·맥락

기존 정렬 연구는 크게 두 가지: 현재 시스템에 대한 경험적 연구(prosaic alignment)와 이상화된 에이전트에 대한 이론(agent foundations).
저자는 이 두 접근법이 각각 '현재 AI 와 같을 것' 또는 '전혀 모르니 일반 문제를 풀자'는 가정에 기반한다고 지적.
세 번째 접근법으로, 첫 번째 중요한 AI 의 속성을 신중히 예측해 정렬 계획을 세우는 것을 제안.

자금 용처·향후

저자는 LLM 에 지속적 학습과 실행 기능(executive function)을 추가하는 방식을 연구 중.
이를 통해 스케일링만으로는 도달하기 어려운 TCAI 로 가는 경로를 예측하려 함.

편집자 한 줄

기존 정렬 연구의 두 축 사이에서 간과된 접근법을 체계화한 점이 인상적입니다. 다만 아젠다 단계라 구체적 결과물은 아직입니다.

#alignment
#agi
#research-agenda
#brainlike-agi

LessWrong

원문 보기 →

LessWrong 에 게재된 연구 아젠다: 뇌형 AGI 정렬 예측

골자

배경·맥락

자금 용처·향후

Comments