Papers·어제
Spectral Forcing — 주파수 대역별로 신호와 잡음 분리해 pixel-space diffusion 효율 개선

NTU MMLab 팀이 pixel-space diffusion 모델의 주파수 의존적 신호-잡음 구조를 분석해, time-conditional 2D-DCT 저역 통과 필터를 입력에 적용하는 Spectral Forcing을 제안했습니다. 이 기법은 coarse patch tokenization에서 FID와 Inception Score를 일관되게 개선했으며, SenseNova-U1 text-to-image 모델에서도 DPG-Bench와 GenEval 점수를 향상시켰습니다. 단, fine tokenization에서는 이득이 미미해 coarse tokenization 환경에 특화된 최적화라는 점이 한계입니다.
Pixel-space diffusion에서 주파수 대역별로 신호와 잡음이 다르게 분포한다는 점을 이용해, 입력에 저역 통과 필터를 적용해 연산 효율을 높인 연구입니다.
핵심 결론
- 방법 — Spectral Forcing: time-conditional 2D-DCT 저역 통과 필터를 noisy input에 적용해 고주파 잡음을 제거하고 신호 영역에 집중.
- 성능 — ImageNet-256, JiT-700M/32 모델에서 FID와 Inception Score 모두 개선, 학습 epoch 전반에 걸쳐 일관된 향상.
- 일반화 — SenseNova-U1 text-to-image 모델에 그대로 적용해 DPG-Bench와 GenEval 점수 향상 확인.
방법
- 직관 — 자연 이미지의 power-law 스펙트럼과 rectified-flow diffusion에서 각 시간 t마다 신호 대 잡음비가 주파수에 따라 달라지는 경계가 존재.
- 구현 — 시간 t에 따라 cutoff frequency가 단조 증가하는 2D-DCT 마스크를 patch embedder 앞에 삽입. 학습 파라미터 없음.
- 효과 — 잡음이 지배적인 고주파 영역에서 denoiser가 불필요한 연산을 하지 않도록 유도해 capacity 효율화.
한계·조건
- 조건 — Coarse patch tokenization (예: 32x32 patch)에서 가장 큰 효과. Fine tokenization에서는 경쟁력 있지만 이득이 미미.
- 가정 — 고주파 내용이 주로 잡음이고 신호가 적은 데이터에 적합. 세부 텍스처가 중요한 태스크에서는 오히려 손실 가능.
- 코드 — 논문 내 코드 공개 여부 불명. SenseNova-U1에 적용된 부분은 공개 모델 기반.
편집자 한 줄
파라미터 없는 간단한 전처리로 diffusion 학습 효율을 높인 점이 깔끔합니다. 다만 coarse tokenization에 특화된 만큼, 최신 고해상도 모델에서도 통할지는 추가 실험이 필요해 보입니다.
- #diffusion
- #spectral-forcing
- #pixel-space
- #image-generation
- #ntu
MMLab@NTU