Papers·어제
VESFlow: 학습 없는 안전 필터 — flow matching T2I 에서 unsafe concept 제거, 공격 성공률 6.3%

NTU Singapore 팀이 flow matching 기반 text-to-image 모델을 위한 학습 없는 안전 방법 VESFlow/VESFlow+ 를 제안했습니다. 속도장(velocity field)을 직접 편집해 unsafe concept 을 제거하며, 4-step MeanFlow 모델에서 NudeNet 기준 공격 성공률을 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 낮췄습니다. benign prompt 에서는 성능 저하가 거의 없고, 추가 학습이 필요 없는 점이 장점입니다.
Flow matching 기반 T2I 모델의 안전성을 위한 학습 없는 속도장 편집 방법 VESFlow.
핵심 결론
- 태스크 — Flow matching T2I 모델에서 unsafe concept 제거 (공격 성공률 감소).
- 수치 — 4-step MeanFlow, NudeNet 기준 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 공격 성공률 감소.
- 조건 — Benign prompt 에서 fidelity 유지, 추가 학습 불필요.
방법
- 핵심 아이디어 — Flow matching 이 학습한 marginal velocity field 를 safe-conditional posterior 로 직접 편집.
- VESFlow — 속도장을 안전 방향으로 편집, conditioning prompt 는 그대로 유지.
- VESFlow+ — Risk score 기반 필터링으로 benign prompt 시 속도 편집을 생략해 계산량 절감, unsafe 방향에서 멀어지도록 추가 편집.
한계·조건
- 벤치 — 실험은 4-step MeanFlow 모델에 국한, 다른 스텝 수나 모델 아키텍처에서 일반화 검증 필요.
- 코드 — 코드 공개 여부는 명시되지 않음.
- 범위 — 제거 대상 concept 은 사전 정의된 unsafe set 에 한정, 새로운 concept 에 대한 일반화는 미검증.
편집자 한 줄
학습 없이 속도장을 직접 건드리는 접근은 flow matching 의 구조적 특성을 잘 활용한 케이스네요.
- #flow-matching
- #text-to-image
- #safety
- #ntu
Nanyang Technological University Singapore