Papers·어제

VESFlow: 학습 없는 안전 필터 — flow matching T2I 에서 unsafe concept 제거, 공격 성공률 6.3%

NTU Singapore 팀이 flow matching 기반 text-to-image 모델을 위한 학습 없는 안전 방법 VESFlow/VESFlow+ 를 제안했습니다. 속도장(velocity field)을 직접 편집해 unsafe concept 을 제거하며, 4-step MeanFlow 모델에서 NudeNet 기준 공격 성공률을 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 낮췄습니다. benign prompt 에서는 성능 저하가 거의 없고, 추가 학습이 필요 없는 점이 장점입니다.

Flow matching 기반 T2I 모델의 안전성을 위한 학습 없는 속도장 편집 방법 VESFlow.

핵심 결론

태스크 — Flow matching T2I 모델에서 unsafe concept 제거 (공격 성공률 감소).
수치 — 4-step MeanFlow, NudeNet 기준 Ring-A-Bell 6.3%, MMA-Diffusion 6.8% 로 공격 성공률 감소.
조건 — Benign prompt 에서 fidelity 유지, 추가 학습 불필요.

방법

핵심 아이디어 — Flow matching 이 학습한 marginal velocity field 를 safe-conditional posterior 로 직접 편집.
VESFlow — 속도장을 안전 방향으로 편집, conditioning prompt 는 그대로 유지.
VESFlow+ — Risk score 기반 필터링으로 benign prompt 시 속도 편집을 생략해 계산량 절감, unsafe 방향에서 멀어지도록 추가 편집.

한계·조건

벤치 — 실험은 4-step MeanFlow 모델에 국한, 다른 스텝 수나 모델 아키텍처에서 일반화 검증 필요.
코드 — 코드 공개 여부는 명시되지 않음.
범위 — 제거 대상 concept 은 사전 정의된 unsafe set 에 한정, 새로운 concept 에 대한 일반화는 미검증.

편집자 한 줄

학습 없이 속도장을 직접 건드리는 접근은 flow matching 의 구조적 특성을 잘 활용한 케이스네요.

#flow-matching
#text-to-image
#safety
#ntu

Nanyang Technological University Singapore

원문 보기 →

VESFlow: 학습 없는 안전 필터 — flow matching T2I 에서 unsafe concept 제거, 공격 성공률 6.3%

핵심 결론

방법

한계·조건

Comments