← Back to feed
Papers·1개월 전

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

레드티밍에서 공격의 효과성과 다양성을 동시에 달성하기 어려운 문제를 해결하기 위해 Stable-GFN(S-GFN)을 제안했습니다. 기존 GFN의 분할 함수 추정을 제거하고 쌍별 비교로 대체하며, 잡음 보상에 강건한 마스킹과 유창성 안정화 장치를 도입해 훈련 안정성을 높였습니다. 다양한 설정에서 공격 성능과 다양성 모두에서 우수한 결과를 보였습니다.

  • #red-teaming
  • #llm
  • #gfn
  • #safety
  • #stability
Minchan Kwon
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —