← Back to feed
Papers·5일 전

MoE 모델 안전성 재구성 프레임워크 MASCing — 라우팅 게이트 오버라이드로 방어 성공률 52.5%→83.9%

MoE 모델 안전성 재구성 프레임워크 MASCing — 라우팅 게이트 오버라이드로 방어 성공률 52.5%→83.9%

MoE 구조의 LLM은 sparse activation으로 추론 비용을 줄였지만, 라우팅 결정에 따라 행동이 달라져 안전성 제어가 어려워집니다. MASCing은 LSTM 기반 서로게이트 모델로 라우팅 의존성을 학습하고, 추론 시 게이트에 마스크를 씌워 전문가 선택을 오버라이드함으로써 재학습 없이 행동을 조정합니다. 멀티턴 제일브레이크 방어 성공률을 52.5%에서 83.9%로, 성인 콘텐츠 생성 성공률을 52.6%에서 82.0%로 개선했으며, 7개 오픈소스 MoE 모델에서 일관된 효과를 보였습니다.

Jona te Lintelo

Comments

— 첫 댓글을 남겨보세요 —