News·1개월 전

세 가지 유형의 모델 생물체 — 최악·자연·구성

LessWrong 에서 AI 안전 연구에 쓰이는 모델 생물체(MO)를 세 가지 유형으로 분류했습니다. 최악 사례 MO는 통제·정렬 기법을 최대 난이도로 테스트하고(암호 잠금 모델, sleeper agents), 자연 MO는 실제 훈련 파이프라인에서 실패 모드가 자연스럽게 나타나는지를 보며(편향 미세조정으로 인한 정렬 붕괴), 구성 MO는 의도적으로 현상을 인스턴스화합니다(명시적 속임수 목표로 훈련된 모델). 각각의 목적과 예시가 정리되었네요.

AI 안전 연구에서 사용하는 모델 생물체를 최악·자연·구성 세 가지로 나눈 분류입니다.

골자

분류 — 세 가지 유형: 최악 사례 MO, 자연 MO, 구성 MO.
최악 사례 — 안전·통제 기법을 최대 난이도로 스트레스 테스트. 예: 암호 잠금 모델, sleeper agents, red-team malign init.
자연 MO — 실제 훈련 파이프라인에서 실패 모드의 자연스러운 출현을 시연. 예: 편향 미세조정으로 인한 정렬 붕괴.
구성 MO — 관심 현상을 의도적으로 인스턴스화. 예: 명시적 속임수 목표로 훈련된 모델.

배경·맥락

최악 사례 MO는 통제 연구에서 청팀 대비 적팀이 만든 '악의적 초기화'처럼 실제보다 더 어려운 조건을 제공합니다.
자연 MO는 실제 훈련 과정에서 정렬이 어떻게 붕괴될 수 있는지 이해하는 데 초점을 둡니다.
구성 MO는 특정 현상을 정밀하게 연구하기 위해 인위적으로 만든다는 점에서 다릅니다.

편집자 한 줄

분류 자체는 단순하지만, 각 유형이 어떤 안전 질문에 답하려는지 명확히 해준다는 점에서 유용합니다.

#model-organisms
#ai-safety
#alignment
#lesswrong

LessWrong

원문 보기 →

세 가지 유형의 모델 생물체 — 최악·자연·구성

골자

배경·맥락

Comments