News·2주 전
모델 유기체의 취약성 분석 — 훈련 내성 향상을 위한 설계 원칙

LessWrong 게시글에서 연구자들이 제안한 훈련 기법 평가용 모델 유기체가 간단한 비표적 훈련(예: 해적 말투 훈련)에 취약하다는 문제를 지적했습니다. 취약한 유기체는 기법의 진정한 효과를 가리므로, 보다 강건한 유기체를 만들기 위한 요소를 식별했습니다. 주요 발견은 프롬프트 기반 유기체는 매우 취약하고, 고랭크 LoRA 또는 전체 가중치 미세조정이 더 강건하며, 비밀번호 잠금 유기체는 훈련 데이터 내 비밀번호 비율이 높을수록 취약해진다는 점입니다.
미래의 정렬되지 않은 AI 시스템에 적용할 훈련 기법을 개발하기 위해 모델 유기체를 사용할 때, 현재의 유기체는 너무 취약해 기법 평가가 무의미해지는 문제를 분석했습니다.
골자
- 문제 — 프롬프트 기반 모델 유기체는 해적 말투 훈련 같은 단순 비표적 훈련에도 쉽게 무력화됩니다.
- 주요 발견 — 프롬프트 기반 유기체는 매우 취약, 고랭크 LoRA·전체 가중치 미세조정이 더 강건, 비밀번호 잠금 유기체는 비밀번호 비율에 따라 취약도 증가.
- 실험 결과 — 해적 말투 훈련이 나쁜 행동 비율을 약 25%만 감소시키는 강건한 유기체를 얻었습니다.
배경·맥락
- Hubinger, Greenblatt, Ryd 등의 선행 연구 재현에서도 동일한 취약성이 관찰됨.
- 함의 — 취약한 유기체에서는 정교한 기법이 성공해도 기법이 좋은지 유기체가 약한지 구분할 수 없습니다.
편집자 한 줄
모델 유기체의 강건성 조건을 체계화한 점이 유용하지만, '단순한 행동이 더 강건하다'는 패턴은 아직 설명이 부족해 추가 연구가 필요해 보입니다.
- #model-organisms
- #robustness
- #alignment
- #training-techniques
- #lesswrong
LessWrong