News·어제
Google DeepMind, 합성 문서로 Gemini 3 Flash 성격 훈련 — MSM 방법론 확장

Google DeepMind 해석 가능성 팀이 합성 문서 미드트레이닝(MSM) 기법을 Gemini 3 Flash에 적용해 특정 성격 특성을 주입하는 실험 결과를 공개했습니다. Marks·Li 등의 방법을 차용해, 모델이 해당 특성을 가진 세계를 묘사하는 문서로 미드트레이닝한 후 채팅 파인튜닝으로 특성을 강화했습니다. OOD 상황에서도 특성이 견고하게 유지됐으며, 미드트레이닝과 SFT 효율을 높이는 실용적 팁도 공유했습니다.
Google DeepMind 해석 가능성 팀이 합성 문서 미드트레이닝(MSM)으로 프론티어 모델에 성격 특성을 주입한 연구를 공개했습니다.
골자
- 대상 — Gemini 3 Flash — Flash SFT 혼합물로만 포스트트레이닝된 체크포인트를 시작점으로 사용.
- 방법 — Marks·Li 등의 MSM 기법을 확장해, 모델이 특정 성격 특성을 가진 세계를 묘사하는 문서(Reddit 스레드, 블로그, 이메일, 연구 논문)로 미드트레이닝 후, 해당 특성을 자연스럽게 드러내는 합성 채팅 데이터로 SFT.
- 결과 — OOD 상황에서도 특성이 견고하게 유지됐으며, 행동 자체보다 그 이유를 가르치는 쪽이 일반화에 더 효과적.
배경·맥락
- Li et al(MSM)은 채팅 파인튜닝 전 합성 문서로 미드트레이닝하면 모델 일반화 방향을 조정할 수 있음을 보임.
- 차별점 — 이번 연구는 프론티어 모델에 긍정적 성격 특성을 주입하는 실용적 디테일(데이터 생성 파이프라인, 미드트레이닝 vs SFT 효과 비교)에 초점.
- 동기 — 딥 얼라인먼트 — 고도로 OOD인 행동에서도 원칙을 따르도록 모델에 내재화하는 것이 목표.
자금 용처·향후
- 파이프라인 — 미드트레이닝용 문서 생성(Reddit, 블로그 등 형식)과 SFT용 채팅 데이터 생성(프롬프트+응답) 두 가지 주요 파이프라인.
- 공개 — 연구는 비공식 업데이트 시리즈의 일부로, 코드나 데이터는 공개되지 않았습니다.
편집자 한 줄
MSM이 프론티어 모델에서도 실용적으로 동작한다는 점을 확인한 연구입니다. 다만 '긍정적 특성'의 정의와 평가 기준이 명확하지 않아, 실제 정렬 안전성에 얼마나 기여할지는 더 봐야 할 듯.
- #google-deepmind
- #interpretability
- #synthetic-data
- #midtraining
- #alignment
LessWrong