← Back to feed
Papers·어제

Spectral Forcing — 주파수 대역별로 신호와 잡음 분리해 pixel-space diffusion 효율 개선

Spectral Forcing — 주파수 대역별로 신호와 잡음 분리해 pixel-space diffusion 효율 개선

NTU MMLab 팀이 pixel-space diffusion 모델의 주파수 의존적 신호-잡음 구조를 분석해, time-conditional 2D-DCT 저역 통과 필터를 입력에 적용하는 Spectral Forcing을 제안했습니다. 이 기법은 coarse patch tokenization에서 FID와 Inception Score를 일관되게 개선했으며, SenseNova-U1 text-to-image 모델에서도 DPG-Bench와 GenEval 점수를 향상시켰습니다. 단, fine tokenization에서는 이득이 미미해 coarse tokenization 환경에 특화된 최적화라는 점이 한계입니다.

Pixel-space diffusion에서 주파수 대역별로 신호와 잡음이 다르게 분포한다는 점을 이용해, 입력에 저역 통과 필터를 적용해 연산 효율을 높인 연구입니다.

핵심 결론

  • 방법Spectral Forcing: time-conditional 2D-DCT 저역 통과 필터를 noisy input에 적용해 고주파 잡음을 제거하고 신호 영역에 집중.
  • 성능ImageNet-256, JiT-700M/32 모델에서 FID와 Inception Score 모두 개선, 학습 epoch 전반에 걸쳐 일관된 향상.
  • 일반화SenseNova-U1 text-to-image 모델에 그대로 적용해 DPG-Bench와 GenEval 점수 향상 확인.

방법

  • 직관자연 이미지의 power-law 스펙트럼과 rectified-flow diffusion에서 각 시간 t마다 신호 대 잡음비가 주파수에 따라 달라지는 경계가 존재.
  • 구현시간 t에 따라 cutoff frequency가 단조 증가하는 2D-DCT 마스크를 patch embedder 앞에 삽입. 학습 파라미터 없음.
  • 효과잡음이 지배적인 고주파 영역에서 denoiser가 불필요한 연산을 하지 않도록 유도해 capacity 효율화.

한계·조건

  • 조건Coarse patch tokenization (예: 32x32 patch)에서 가장 큰 효과. Fine tokenization에서는 경쟁력 있지만 이득이 미미.
  • 가정고주파 내용이 주로 잡음이고 신호가 적은 데이터에 적합. 세부 텍스처가 중요한 태스크에서는 오히려 손실 가능.
  • 코드논문 내 코드 공개 여부 불명. SenseNova-U1에 적용된 부분은 공개 모델 기반.

편집자 한 줄

파라미터 없는 간단한 전처리로 diffusion 학습 효율을 높인 점이 깔끔합니다. 다만 coarse tokenization에 특화된 만큼, 최신 고해상도 모델에서도 통할지는 추가 실험이 필요해 보입니다.

  • #diffusion
  • #spectral-forcing
  • #pixel-space
  • #image-generation
  • #ntu
MMLab@NTU
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —