← Back to feed
Papers·4일 전

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

레드티밍에서 공격의 효과성과 다양성을 동시에 달성하기 어려운 문제를 해결하기 위해 Stable-GFN(S-GFN)을 제안했습니다. 기존 GFN의 분할 함수 추정을 제거하고 쌍별 비교로 대체하며, 잡음 보상에 강건한 마스킹과 유창성 안정화 장치를 도입해 훈련 안정성을 높였습니다. 다양한 설정에서 공격 성능과 다양성 모두에서 우수한 결과를 보였습니다.

Minchan Kwon

Comments

— 첫 댓글을 남겨보세요 —