News·2주 전
발달적 인지 해석 가능성(DCI): AI 안전을 위한 연구 어젠다

케임브리지와 Geodesic Research 연구진이 AI의 훈련 과정에서 인지 구조가 어떻게 변화하는지 모델링하는 '발달적 인지 해석 가능성(DCI)' 접근법을 제안했습니다. DCI는 행동 스냅샷만으로는 구분하기 어려운 scheming, fitness-seeking, 정렬된 동기 등을 훈련 파이프라인 관점에서 추론해 OOD 배포 시 행동을 예측하는 것이 목표입니다. 초기 실험에서 장난감 환경에서 유효성을 확인했지만, LLM으로의 확장이 현재 가장 큰 불확실성이라고 합니다.
AI 시스템의 안전한 배포를 위해 OOD 입력에서의 행동을 배포 전 평가만으로 확신할 수 있어야 한다는 문제의식에서 출발한 연구입니다.
골자
- 핵심 아이디어 — 훈련 과정에서 인지 구조(동기, 의도, 목표)의 변화를 추적해 OOD 행동을 예측하는 방법론.
- 목표 — 배포 전 평가만으로 OOD 입력에서의 안전한 행동을 확신할 수 있는 근거를 제공하는 것.
- 초기 증거 — 장난감 환경에서 방법론의 유효성을 확인했으나, LLM 확장이 주요 과제.
배경·맥락
- 행동 스냅샷만으로는 scheming, fitness-seeking, 정렬된 동기 등 다양한 인지 구조를 구분하기 어렵다는 점이 동기.
- 기존 접근과 차이 — Mechanistic Interpretability의 가장 야심 찬 버전은 아직 도달하기 어려울 수 있다는 전제 아래, 인지적 관점에서의 해석을 시도.
자금 용처·향후
- 다음 단계 — LLM으로의 확장 가능성 탐구. 관심 있는 연구자에게 연락을 요청.
- 문의 — jrb239[at]cam[dot]ac[dot]uk 또는 edward[at]geodesicresearch[dot]org
편집자 한 줄
아직 초기 단계지만, '훈련 과정에서의 인지 발달'이라는 프레임은 기계 해석 가능성에 새로운 축을 제시합니다.
- #interpretability
- #ai-safety
- #cognitive-science
- #research-agenda
LessWrong