Papers·2개월 전

히브리대, 확산 모델에 주파수 분산 노이즈를 주입하는 Colored Noise Sampling — FID 8.26→6.27 (SiT-XL/2)

히브리대 연구팀이 확산 모델의 생성 과정에서 spectral bias(저주파 구조 먼저, 고주파 세부사항 나중)를 활용해 노이즈를 주파수별로 동적으로 주입하는 Colored Noise Sampling(CNS)을 제안했습니다. 기존 SDE solver가 균일 백색 잡음을 전체 과정에 동일하게 주입하는 비효율을 개선해, ImageNet-256에서 SiT-XL/2의 FID를 8.26→6.27로 낮췄습니다. 학습 없이 inference-time sampler만 교체하는 방식이라 다양한 아키텍처(SiT, JiT, FLUX)에 적용 가능합니다.

히브리대 연구팀이 확산 모델의 spectral bias를 활용해 노이즈를 주파수별로 동적으로 주입하는 Colored Noise Sampling(CNS)을 제안했습니다.

핵심 결론

태스크 — ImageNet-256 class-conditional image generation에서 FID 개선.
수치 — SiT-XL/2: 8.26→6.27, JiT-B/16: 32.39→26.69, JiT-H/16: 11.88→8.31.
범용성 — Classifier-Free Guidance 적용 시에도 일관된 FID 향상, 다양한 아키텍처(SiT, JiT, FLUX)에서 검증.

방법

핵심 아이디어 — SDE 추론을 주파수-분리된 에너지 전달로 재해석, timestep과 frequency에 따라 노이즈 스펙트럼을 동적으로 조절.
구현 — 기존 SDE solver에서 백색 잡음 대신 colored noise를 주입하는 schedule을 도입, 학습 없이 sampler만 교체.
모델의 spectral bias(저주파→고주파 순서로 생성)를 적극 활용해, 아직 해결되지 않은 주파수 대역에 에너지를 집중.

한계·조건

환경 — 추가 학습이 필요 없지만, sampler 교체로 인한 inference 시간 변화는 보고되지 않음.
벤치 — ImageNet-256에 국한, 다른 데이터셋이나 해상도에서의 일반화는 추가 검증 필요.
코드 — 프로젝트 페이지(https://hadardavidson.github.io/CNS/)에 코드 공개 예정.

편집자 한 줄

spectral bias를 노이즈 스케줄에 반영한다는 직관이 깔끔하고, 학습 없이 sampler만 바꿔서 성능이 오르는 점이 실용적으로 보입니다.

#diffusion
#spectral-bias
#colored-noise
#hebrew-university
#image-generation

The Hebrew University of Jerusalem

원문 보기 →

히브리대, 확산 모델에 주파수 분산 노이즈를 주입하는 Colored Noise Sampling — FID 8.26→6.27 (SiT-XL/2)

핵심 결론

방법

한계·조건

Comments