Papers·5일 전
파인튜닝이 안전성을 유지한다는 가정은 틀렸다 — 100개 모델 분석 결과

Foundation model의 안전성 평가가 주로 base model에만 이뤄지는 관행에 의문을 제기하는 연구입니다. 의료·법률 도메인 파인튜닝 모델을 포함한 100개 모델을 분석한 결과, benign fine-tuning이 안전성 지표에 크고 이질적인 변화를 일으키며, 평가 도구 간에도 상충되는 결과를 보였습니다. 이는 downstream adaptation에서 안전성 행동이 안정적이지 않음을 의미하며, base model 평가만으로는 실제 배포 위험을 관리하기에 부족하다고 주장합니다.
- #fine-tuning
- #safety
- #alignment
- #foundation-models
Emaan Bilal Khan