Papers·3개월 전

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

레드티밍에서 공격의 효과성과 다양성을 동시에 달성하기 어려운 문제를 해결하기 위해 Stable-GFN(S-GFN)을 제안했습니다. 기존 GFN의 분할 함수 추정을 제거하고 쌍별 비교로 대체하며, 잡음 보상에 강건한 마스킹과 유창성 안정화 장치를 도입해 훈련 안정성을 높였습니다. 다양한 설정에서 공격 성능과 다양성 모두에서 우수한 결과를 보였습니다.

#red-teaming
#llm
#gfn
#safety
#stability

Minchan Kwon

원문 보기 →

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

Comments