Papers·1개월 전

Stanford, LLM 행동 안전성 평가만으로는 내부 취약점을 놓친다는 'audit gap' 실증 — LVS 제안

Stanford 연구팀이 LLM의 행동 수준 안전성 평가가 내부 표현의 취약성을 반영하지 못하는 'audit gap'을 공식화하고, 잠재 취약성 점수(LVS)를 제안했습니다. 유해한 미세조정이나 층별 잠재 섭동 같은 개입을 가했을 때, 겉으로는 무해한 응답을 유지하지만 내부적으로는 취약한 '분리 모델(dissociated model)'을 구성해 실험한 결과, 중간 표현이 개입에 가장 민감했으며 행동 안전성만으로는 내부 견고성을 보장할 수 없음을 보였습니다.

Stanford 연구팀이 LLM의 행동 안전성 평가가 내부 표현 수준의 취약성을 반영하지 못하는 'audit gap'을 실증하고, 잠재 취약성 점수(LVS)를 제안했습니다.

핵심 결론

audit gap — 행동 안전성(거절율)과 내부 표현 견고성 사이의 차이를 공식화 — 겉으로는 안전해 보여도 내부는 취약한 모델이 존재합니다.
LVS — 제안된 Latent Vulnerability Score는 제한된 잠재 섭동으로 유해 행동을 얼마나 쉽게 유도할 수 있는지 측정합니다.

방법

분리 모델 — 안전한 행동을 유지하면서 잠재 공간에서는 취약하도록 구성한 dissociated model을 사용해 audit gap을 시연했습니다.
개입 방식 — 유해 미세조정(harmful fine-tuning)과 층별 잠재 섭동(layer-wise latent perturbation)을 통해 내부 취약성을 평가합니다.
실험 대상 — 안전 정렬이 잘 된 모델과 그렇지 않은 모델 모두에서 행동 안전성만으로는 내부 견고성을 보장할 수 없음을 확인했습니다.

한계·조건

범위 — 제안된 LVS는 bounded perturbation을 가정하며, unbounded 공격이나 실제 적대적 시나리오에 대한 일반화는 추가 검증이 필요합니다.
재현성 — 코드 공개 여부는 명시되지 않았으며, 실험은 특정 모델과 데이터셋에 한정됩니다.

편집자 한 줄

행동 평가만으로 안전성을 장담하기 어렵다는 점을 실험적으로 보여준 점이 인상적입니다. 다만 LVS가 실제 배포 환경에서 얼마나 실용적인 지표가 될지는 더 논의가 필요해 보입니다.

#llm-safety
#audit-gap
#latent-vulnerability
#stanford

Stanford University

원문 보기 →

Stanford, LLM 행동 안전성 평가만으로는 내부 취약점을 놓친다는 'audit gap' 실증 — LVS 제안

핵심 결론

방법

한계·조건

Comments