← Back to feed
Papers·5일 전

파인튜닝이 안전성을 유지한다는 가정은 틀렸다 — 100개 모델 분석 결과

파인튜닝이 안전성을 유지한다는 가정은 틀렸다 — 100개 모델 분석 결과

Foundation model의 안전성 평가가 주로 base model에만 이뤄지는 관행에 의문을 제기하는 연구입니다. 의료·법률 도메인 파인튜닝 모델을 포함한 100개 모델을 분석한 결과, benign fine-tuning이 안전성 지표에 크고 이질적인 변화를 일으키며, 평가 도구 간에도 상충되는 결과를 보였습니다. 이는 downstream adaptation에서 안전성 행동이 안정적이지 않음을 의미하며, base model 평가만으로는 실제 배포 위험을 관리하기에 부족하다고 주장합니다.

Emaan Bilal Khan

Comments

— 첫 댓글을 남겨보세요 —