← Back to feed
Papers·5일 전

DAR: DiT의 residual stream을 timestep-adaptive 라우팅으로 교체 — SiT-XL/2 FID 2.11 개선, 8.75배 빠른 수렴

DAR: DiT의 residual stream을 timestep-adaptive 라우팅으로 교체 — SiT-XL/2 FID 2.11 개선, 8.75배 빠른 수렴

Diffusion Transformer(DiT)의 residual stream이 정보 흐름에 세 가지 문제(magnitude inflation, gradient decay, block redundancy)를 일으킨다는 진단을 바탕으로, 학습 가능하고 timestep에 따라 적응형으로 서브레이어 출력을 집계하는 DAR(Diffusion-Adaptive Routing)을 제안합니다. ImageNet 256×256에서 SiT-XL/2의 FID를 2.11 개선했고, baseline과 동일한 품질에 8.75배 적은 학습 반복으로 도달합니다. REPA와도 호환되며 초기 학습을 2배 가속합니다. 단, 대규모 T2I 모델에서는 fine-tuning 단계에서만 적용 가능하고, Distribution Matching Distillation 시 고주파 디테일을 보존하는 효과가 있습니다.

  • #diffusion
  • #transformer
  • #residual-stream
  • #imagenet
  • #dar
RTP-LLM

Comments

— 첫 댓글을 남겨보세요 —