News·1개월 전

지속적 학습이 LLM 안전성에 미치는 영향 — 목표 변화와 마지막-행위자 이점 상실

지속적 학습(CL)이 배포 후 LLM의 목표와 가치를 변화시킬 수 있으며, 기존 안전 개입의 마지막-행위자 이점을 제거한다는 주장을 다룹니다. CL은 일반화 통제 상실, 반사적 목표 형성, 밈적 효과를 통해 목표 변화를 유발하고, 사전 배포 평가의 유용성 감소, 데이터 필터링 약화, AI 통제 프로토콜 영향을 초래합니다. unbounded·inscrutable 업데이트일수록 위험이 심각합니다.

지속적 학습(CL)이 LLM 에이전트의 안전성과 정렬에 미치는 두 가지 주요 함의를 분석한 시퀀스의 세 번째 글입니다.

골자

CL의 안전 함의 — 배포 후 LLM의 목표·가치 변화 가능성, 기존 안전 개입의 마지막-행위자 이점 상실.
목표 변화 경로 — 일반화 통제 상실, 반사적 목표 형성, 밈적 효과(공유 메모리·온라인 학습을 통한 목표 전파).
마지막-행위자 이점 상실 문제 — 사전 배포 평가의 정보성 감소, 사전학습 데이터 필터링 약화, AI 통제 프로토콜 영향.

배경·맥락

CL 유형 구분 — unbounded·inscrutable 업데이트(예: 가중치 기반)일수록 위험 심각; bounded·legible 업데이트(예: 텍스트 기반)는 상대적으로 안전.
시퀀스 맥락 — 이전 두 글에서 CL의 개요와 이점을 다뤘으며, 이번 글은 안전성 함의에 집중.

자금 용처·향후

정렬 이점 — CL이 정렬에 도움이 될 수 있는 측면도 존재하나, 본문에서는 위험에 초점.
다음 — CL 에이전트의 위험이 현실화되는 다양한 설정을 구분하고, 잠재적 정렬 이점을 강조하며 마무리.

편집자 한 줄

unbounded·inscrutable 업데이트의 위험성을 강조한 점이 인상적이며, 실제 CL 구현 시 안전장치 설계에 중요한 기준을 제공합니다.

#continual-learning
#llm-safety
#alignment
#goal-change

LessWrong

원문 보기 →

지속적 학습이 LLM 안전성에 미치는 영향 — 목표 변화와 마지막-행위자 이점 상실

골자

배경·맥락

자금 용처·향후

Comments