News·1개월 전

일관성 훈련 방법 2종 추가 — MLPCT·AttCT, 위협 유형별 효과 차이

SPAR Fellowship 연구진이 MLP 은닉 상태와 어텐션 분포에 일관성을 강제하는 MLPCT·AttCT를 제안했습니다. 기존 BCT(출력 토큰 분포)는 프리필 공격·인컨텍스트 페르소나 공격에 효과적이나, 표현 수준 방법은 위협에 따라 성능 저하나 정상 행동 억제가 발생합니다. BCT는 Gemma의 좌절 표현 감소와 조건부 정렬 누수 억제에 유용했으며, MLPCT·ACT·AttCT는 잔차 스트림에서 유사한 표현으로 수렴하지만 BCT는 다른 방식을 찾았습니다.

일관성 훈련이 모델 안전성에 유용하다는 기존 연구를 확장해, 새로운 두 가지 방법을 소개합니다.

골자

새 방법 — MLPCT(MLP 은닉 상태 일관성)와 AttCT(어텐션 헤드 분포 일관성)를 제안.
기존 방법 — BCT(출력 토큰 분포)와 ACT(잔차 스트림)는 각각 다른 위협에 효과적.
수용 — AI4GOOD @ ICML 2026에 채택됨.

배경·맥락

일관성 훈련은 깨끗한 프롬프트에서의 정상 응답이 적대적 변형에도 유지되도록 학습.
BCT(Chua et al. 2024)와 ACT(Irpan et al. 2025)는 sycophancy와 jailbreak에 효과를 보였으나, 연구진은 더 넓은 위협을 고려.
위협 모델 — 프리필 공격, 인컨텍스트 페르소나, 좌절 표현, 조건부 정렬 누수 등.

결과

BCT 강점 — 프리필 공격과 인컨텍스트 페르소나 공격에 효과적.
표현 수준 방법 — 위협에 따라 성능 저하 또는 정상 행동 억제 발생.
BCT 추가 효과 — Gemma의 좌절 표현 감소, 조건부 정렬 누수 억제에 낮은 비용으로 효과.
표현 수렴 — MLPCT, ACT, AttCT는 잔차 스트림에서 유사한 표현으로 수렴하나 BCT는 다른 방식을 사용.

편집자 한 줄

일관성 훈련이 단일 방법으로 모든 위협을 해결하지 못함을 보여주는 점이 흥미롭습니다. 위협 유형별 방법 선택이 중요해 보입니다.

#consistency-training
#safety
#alignment
#spar-fellowship

LessWrong

원문 보기 →

일관성 훈련 방법 2종 추가 — MLPCT·AttCT, 위협 유형별 효과 차이

골자

배경·맥락

결과

Comments