News·1개월 전

Google DeepMind, 모델 간 행동 차이를 찾는 'Diffing Agent' 공개

Google DeepMind 해석 가능성 팀이 두 모델 간 행동 차이를 자동으로 찾아내는 'diffing agent'를 제안했습니다. 기존 정적 프롬프트 기반 비교와 달리, 에이전트가 스스로 프롬프트를 생성해 희귀한 차이까지 탐색합니다. 동일 모델 비교 시 차이가 없고, 조건부 명령어가 주어진 경우 의도된 변화만 감지하는 평가를 통과했지만, 은밀한 행동을 학습시킨 모델에서는 의도된 행동을 찾지 못하는 한계도 확인했습니다.

Google DeepMind 해석 가능성 팀이 두 LLM 간 행동 차이를 능동적으로 찾는 에이전트를 설계했습니다.

골자

핵심 아이디어 — 정적 프롬프트 대신 에이전트가 스스로 프롬프트를 생성해 두 모델 간 차이를 탐색하고 검증합니다.
평가 방식 — 동일 모델 비교 시 차이 없음, 조건부 명령어가 포함된 경우 의도된 변화만 감지하는 두 가지 ground-truth 평가를 통과했습니다.
성능 — 미묘한 행동 변화에서 단일 모델 감사 에이전트보다 우수했습니다.

배경·맥락

기존 행동 차이 분석은 정적 프롬프트 분포에 의존해 희귀한 차이를 놓칠 위험이 있었습니다.
은밀한 행동 실험 — 비밀 행동을 학습시킨 모델에서 diffing agent는 차이를 찾았지만 의도된 행동 자체는 찾지 못했는데, 연구진은 이는 모델 학습 방식의 문제라고 분석합니다.

향후 방향

활용처 — 모델 안전성 평가, 능력 차이 분석, 파인튜닝 효과 검증 등에 응용 가능합니다.

편집자 한 줄

에이전트가 스스로 프롬프트를 생성한다는 점에서 기존 정적 평가 대비 확장성이 높지만, 은밀한 행동 탐지 실패는 모델 해석 가능성의 근본적인 한계를 보여주는 사례네요.

#google-deepmind
#interpretability
#model-diffing
#llm-safety

LessWrong

원문 보기 →

Google DeepMind, 모델 간 행동 차이를 찾는 'Diffing Agent' 공개

골자

배경·맥락

향후 방향

Comments