← Back to feed
Papers·어제

VESFlow: 학습 없는 안전 필터 — flow matching T2I 에서 unsafe concept 제거, 공격 성공률 6.3%

VESFlow: 학습 없는 안전 필터 — flow matching T2I 에서 unsafe concept 제거, 공격 성공률 6.3%

NTU Singapore 팀이 flow matching 기반 text-to-image 모델을 위한 학습 없는 안전 방법 VESFlow/VESFlow+ 를 제안했습니다. 속도장(velocity field)을 직접 편집해 unsafe concept 을 제거하며, 4-step MeanFlow 모델에서 NudeNet 기준 공격 성공률을 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 낮췄습니다. benign prompt 에서는 성능 저하가 거의 없고, 추가 학습이 필요 없는 점이 장점입니다.

Flow matching 기반 T2I 모델의 안전성을 위한 학습 없는 속도장 편집 방법 VESFlow.

핵심 결론

  • 태스크Flow matching T2I 모델에서 unsafe concept 제거 (공격 성공률 감소).
  • 수치4-step MeanFlow, NudeNet 기준 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 공격 성공률 감소.
  • 조건Benign prompt 에서 fidelity 유지, 추가 학습 불필요.

방법

  • 핵심 아이디어Flow matching 이 학습한 marginal velocity field 를 safe-conditional posterior 로 직접 편집.
  • VESFlow속도장을 안전 방향으로 편집, conditioning prompt 는 그대로 유지.
  • VESFlow+Risk score 기반 필터링으로 benign prompt 시 속도 편집을 생략해 계산량 절감, unsafe 방향에서 멀어지도록 추가 편집.

한계·조건

  • 벤치실험은 4-step MeanFlow 모델에 국한, 다른 스텝 수나 모델 아키텍처에서 일반화 검증 필요.
  • 코드코드 공개 여부는 명시되지 않음.
  • 범위제거 대상 concept 은 사전 정의된 unsafe set 에 한정, 새로운 concept 에 대한 일반화는 미검증.

편집자 한 줄

학습 없이 속도장을 직접 건드리는 접근은 flow matching 의 구조적 특성을 잘 활용한 케이스네요.

  • #flow-matching
  • #text-to-image
  • #safety
  • #ntu
Nanyang Technological University Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —