← Back to feed
Papers·1주 전

SIREN: LLM 내부 레이어의 안전 뉴런을 활용한 경량 가드 모델 — 파라미터 250분의 1로 SOTA 능가

SIREN: LLM 내부 레이어의 안전 뉴런을 활용한 경량 가드 모델 — 파라미터 250분의 1로 SOTA 능가

Toronto 대학 CSSLab이 LLM 내부 레이어의 safety neuron을 활용한 경량 가드 모델 SIREN을 발표했습니다. 기존 가드 모델은 마지막 레이어 표현만 사용하는 반면, SIREN은 선형 프로빙으로 안전 관련 뉴런을 식별하고 적응형 가중치로 결합해, 학습 파라미터 수를 250분의 1로 줄이면서도 여러 벤치마크에서 SOTA를 능가합니다. 특히 미처 본 적 없는 벤치마크로의 일반화와 실시간 스트리밍 탐지가 가능하다는 점이 흥미롭지만, 내부 상태 접근이 가능한 LLM에만 적용된다는 한계가 있습니다.

University of Toronto CSSLab

Comments

— 첫 댓글을 남겨보세요 —