← Back to feed
Papers·6일 전

확산 모델 환각 25% 감소 — Variance-Guided Score Modulation (VSM) 전략

확산 모델 환각 25% 감소 — Variance-Guided Score Modulation (VSM) 전략

확산 모델의 환각(hallucination) 문제를 score 함수의 평활도(smoothness)로 설명하고, 이를 완화하는 Variance-Guided Score Modulation (VSM) 전략을 제안했습니다. VSM은 score Jacobian을 조절해 score 평활도를 낮춤으로써 ground truth score에 더 가까워지게 하여, 합성 및 실제 데이터셋에서 환각을 최대 25% 감소시키면서도 fidelity와 diversity를 유지했습니다. 코드와 데이터셋은 공개되었습니다.

확산 모델의 환각 문제를 score 함수의 평활도로 규명하고, 이를 제어하는 VSM 기법으로 최대 25% 환각 감소를 달성했습니다.

핵심 결론

  • 환각 감소제안된 VSM 전략으로 합성 및 실제 이미지 데이터셋에서 환각을 최대 25% 줄였습니다.
  • 품질 유지FID, IS 등 기존 지표에서 fidelity와 diversity가 유지되거나 소폭 개선되었습니다.

방법

  • 이론적 연결환각 확률 질량을 score 함수의 Lipschitz 상수와 연결하여, score 평활도가 클수록 환각이 증가함을 공식화했습니다.
  • VSM 전략Score Jacobian을 제어하는 variance-guided modulation을 통해 score 함수의 평활도를 낮추고 ground truth score에 근사합니다.
  • 추가로 극단적 의미 변동을 가진 두 가지 벤치마크 데이터셋을 제안하여 체계적인 환각 평가를 가능하게 했습니다.

한계·조건

  • 적용 범위현재 이미지 생성 확산 모델에 한정되었으며, 다른 모달리티(언어, 오디오)로의 일반화는 검증되지 않았습니다.
  • 계산량VSM은 추가 연산이 필요하지만, 논문에서는 기존 모델 대비 큰 오버헤드가 없다고 보고합니다.
  • 코드GitHub에 코드와 데이터셋이 공개되어 재현 가능합니다.

편집자 한 줄

환각 원인을 score 함수의 기하학적 성질로 설명한 점이 이론적으로 깔끔하고, VSM이 간단하면서도 효과적이라 인상적입니다.

  • #diffusion-models
  • #hallucination
  • #score-function
  • #vsm
Mahesh Bhosale
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —