News·1주 전
ARC, 정렬 파이프라인 업데이트 — MSP 기반 메커니즘 추정기로 훈련 감시

ARC(Alignment Research Center)가 15개월 간의 연구 진전을 바탕으로 정렬 파이프라인을 업데이트했습니다. 핵심은 MSP(Matching Sampling Principle) 기반의 메커니즘 추정기를 활용해 훈련 중 모델 내부 구조를 감시·분석, 재앙적 행동 확률을 샘플 없이 추정하는 방식입니다. 기존 블랙박스 평가 대비 희귀 위험을 조기 포착하는 것이 목표입니다.
ARC가 15개월 간의 기술적 진전을 반영해 정렬 파이프라인 청사진을 새로 공개했습니다.
골자
- 파이프라인 — 훈련 중 모델에 추가되는 구조를 감시 → 구조를 조언으로 변환해 MSP 스타일 메커니즘 추정기 개선 → 추정기로 재앙적 실패 확률 같은 안전 관련 수치 추정 → 그 추정치에 맞춰 모델 최적화.
- 핵심 장점 — 블랙박스 평가와 달리 재앙적 행동이 샘플에 나타날 때까지 기다리지 않고, 학습된 알고리즘 자체에서 희귀하지만 용납할 수 없는 행동의 발생 확률을 추론합니다.
배경·맥락
- MSP와 같은 아이디어의 등장이 구체적인 기술 문제들을 낳았고, 그 진전이 다시 철학적 명확성과 추가 기술 진전으로 이어지는 선순환(flywheel)이 작동 중입니다.
- 이전 공개 논의(Jacob의 'A Bird's Eye View', David의 'Obstacles in ARC's research agenda')는 이 선순환이 본격화되기 전이라 현재 핵심이 반영되지 않았습니다.
필요 요소
- 광범위한 메커니즘 추정기 — MSP 정신을 계승한 추정기로, 신경망 가중치 같은 계산에 대한 설명을 받아 입력-출력 샘플 없이 행동 속성(예: 분포에 대한 기대 손실)을 추정합니다.
편집자 한 줄
ARC의 접근은 해석 가능성(mechanistic interpretability)을 정렬 파이프라인의 핵심으로 삼는 점에서 독특합니다. MSP가 실제로 얼마나 확장 가능할지가 관건입니다.
- #arc
- #alignment
- #mechanistic-interpretability
- #msp
- #safety
LessWrong