← Back to feed
Papers·2일 전

SDU, 심리학 기반 거절 프레임워크 PsychoSafe 공개 — Qwen 3.5 27B에서 거절 품질 28.1% 개선

SDU, 심리학 기반 거절 프레임워크 PsychoSafe 공개 — Qwen 3.5 27B에서 거절 품질 28.1% 개선

University of Southern Denmark 팀이 심리학적 개입 전략을 LLM 거절 응답에 통합한 PsychoSafe 프레임워크를 제안했습니다. 5개 위험 도메인(위기, 강압, 의도 고조 등)에 걸친 8019개 프롬프트-응답 쌍을 구축하고, Qwen 3.5 27B에 파라미터 효율적 미세조정을 적용한 결과, 일반 기준선 대비 거절 품질이 28.1% 향상되었으며, 외부 자원 추천(+46.8%)과 심리적 근거(+34.8%)에서 특히 큰 개선을 보였습니다. 단, 미세조정 시 응답 관련성이 약간 떨어지고, 도메인 외 일반화는 제한적이라는 한계가 있습니다.

SDU 연구진이 위기·강압·의도 고조 등 고위험 상호작용에서 LLM의 거절을 단순 차단이 아닌 구조화된 지원 커뮤니케이션으로 전환하는 PsychoSafe 프레임워크를 공개했습니다.

핵심 결론

  • 벤치500개 프롬프트 균형 검증셋에서 LLM judge + 인간 평가 기준, PsychoSafe 프롬프팅이 일반 기준선 대비 거절 품질 28.1% 향상.
  • 도메인외부 자원 추천 +46.8%, 심리적 근거 +34.8%로 특히 강한 개선.
  • 비거절 태스크거절 외 일반 태스크 성능은 유지됨.

방법

  • 데이터5개 심리적 위험 도메인(자살 위기, 가정 폭력, 강압적 관계 등)에 걸쳐 8019개 프롬프트-응답 쌍 구축.
  • 모델Qwen 3.5 27B에 프롬프트 엔지니어링 + 파라미터 효율적 미세조정(PE FT) 적용.
  • 프레임워크거절을 증거 기반 개입 전략(적극적 경청, 자원 연결, 안전 계획 등)에 따른 구조화된 지원으로 재정의.

한계·조건

  • 일반화SORRY-Bench, XSTest에서 도메인 내 강건성은 높지만 도메인 외 일반화는 제한적.
  • 미세조정미세조정 시 거절 및 자원 추천율은 거의 완벽하나 응답 관련성 감소.
  • 데이터향후 미세조정 데이터 다양화를 통해 모델이 도식적이 아닌 선택적으로 개입을 적용하도록 해야 함.

편집자 한 줄

심리학적 프레임워크를 LLM 안전에 접목한 점은 참신하지만, 실제 배포 전 도메인 외 일반화와 응답 관련성 간 트레이드오프를 더 살펴볼 필요가 있습니다.

  • #llm
  • #safety
  • #refusal
  • #psychology
  • #sdu
University of Southern Denmark (SDU)
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —