Papers·4일 전
Stable-GFN: LLM 레드티밍에서 안정적 학습과 공격 다양성 동시 확보

레드티밍에서 공격의 효과성과 다양성을 동시에 달성하기 어려운 문제를 해결하기 위해 Stable-GFN(S-GFN)을 제안했습니다. 기존 GFN의 분할 함수 추정을 제거하고 쌍별 비교로 대체하며, 잡음 보상에 강건한 마스킹과 유창성 안정화 장치를 도입해 훈련 안정성을 높였습니다. 다양한 설정에서 공격 성능과 다양성 모두에서 우수한 결과를 보였습니다.
- #red-teaming
- #llm
- #gfn
- #safety
- #stability
Minchan Kwon