← Back to feed
News·2주 전

발달적 인지 해석 가능성(DCI): AI 안전을 위한 연구 어젠다

발달적 인지 해석 가능성(DCI): AI 안전을 위한 연구 어젠다

케임브리지와 Geodesic Research 연구진이 AI의 훈련 과정에서 인지 구조가 어떻게 변화하는지 모델링하는 '발달적 인지 해석 가능성(DCI)' 접근법을 제안했습니다. DCI는 행동 스냅샷만으로는 구분하기 어려운 scheming, fitness-seeking, 정렬된 동기 등을 훈련 파이프라인 관점에서 추론해 OOD 배포 시 행동을 예측하는 것이 목표입니다. 초기 실험에서 장난감 환경에서 유효성을 확인했지만, LLM으로의 확장이 현재 가장 큰 불확실성이라고 합니다.

AI 시스템의 안전한 배포를 위해 OOD 입력에서의 행동을 배포 전 평가만으로 확신할 수 있어야 한다는 문제의식에서 출발한 연구입니다.

골자

  • 핵심 아이디어훈련 과정에서 인지 구조(동기, 의도, 목표)의 변화를 추적해 OOD 행동을 예측하는 방법론.
  • 목표배포 전 평가만으로 OOD 입력에서의 안전한 행동을 확신할 수 있는 근거를 제공하는 것.
  • 초기 증거장난감 환경에서 방법론의 유효성을 확인했으나, LLM 확장이 주요 과제.

배경·맥락

  • 행동 스냅샷만으로는 scheming, fitness-seeking, 정렬된 동기 등 다양한 인지 구조를 구분하기 어렵다는 점이 동기.
  • 기존 접근과 차이Mechanistic Interpretability의 가장 야심 찬 버전은 아직 도달하기 어려울 수 있다는 전제 아래, 인지적 관점에서의 해석을 시도.

자금 용처·향후

  • 다음 단계LLM으로의 확장 가능성 탐구. 관심 있는 연구자에게 연락을 요청.
  • 문의jrb239[at]cam[dot]ac[dot]uk 또는 edward[at]geodesicresearch[dot]org

편집자 한 줄

아직 초기 단계지만, '훈련 과정에서의 인지 발달'이라는 프레임은 기계 해석 가능성에 새로운 축을 제시합니다.

  • #interpretability
  • #ai-safety
  • #cognitive-science
  • #research-agenda
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —