Papers·1개월 전

RT-Lynx: DiT 활성화에 N:M 반구조적 희소성 적용 — 선형층 1.55배 가속, 생성 품질 유지

DiT 기반 이미지 생성 모델의 추론 비용을 줄이기 위해, 가중치가 아닌 활성화에 N:M 반구조적 희소성을 적용하는 RT-Lynx가 제안되었습니다. 활성화가 가중치보다 희소성에 강건하다는 관찰에 기반해, 오차 보정 기법과 최적화된 CUDA 커널을 통해 선형층에서 평균 1.55배 속도 향상을 달성하면서도 생성 품질을 유지했습니다. 다만 다양한 DiT 모델에서 검증되었으나, 커스텀 커널 의존성과 특정 하드웨어(NVIDIA GPU)에 최적화된 점이 재현성에 제약이 될 수 있습니다.

DiT 기반 이미지 생성 모델의 추론을 가속화하기 위해, 활성화에 N:M 반구조적 희소성을 적용하는 RT-Lynx가 공개되었습니다.

핵심 결론

속도 — 선형층에서 평균 1.55배, 최대 1.7배 속도 향상 (NVIDIA A100 기준).
품질 — FID, IS 등 생성 품질 지표에서 원본 모델 대비 유의미한 저하 없음.
모델 — DiT, SiT, PixArt-α 등 다양한 DiT 기반 모델에서 검증 완료.

방법

관찰 — DiT 활성화는 가중치보다 훨씬 희소하며, N:M 희소성에 더 강건함.
패러다임 전환 — 기존 가중치 희소화 대신 활성화 희소화로 방향 전환.
오차 보정 — 희소화로 인한 오차를 보정하는 기법을 도입해 품질 손실 최소화.
커널 — N:M 희소 활성화에 특화된 CUDA 커널을 직접 구현해 실제 가속 실현.

한계·조건

하드웨어 — NVIDIA GPU의 N:M 하드웨어 지원(NVIDIA Ampere 이상) 필요.
커스텀 커널 — PyTorch 기본 연산만으로는 속도 이득이 없으며, 제공된 CUDA 커널 사용 필수.
범위 — 선형층에 국한된 가속이며, attention 등 다른 연산은 미포함.

편집자 한 줄

가중치가 아닌 활성화에 희소성을 적용한 발상이 신선합니다. 다만 실제 배포를 위해서는 커스텀 커널의 유지보수와 다양한 하드웨어 호환성이 과제로 남습니다.

#diffusion-transformers
#sparsity
#inference-acceleration
#cuda

RTP-LLM

원문 보기 →

RT-Lynx: DiT 활성화에 N:M 반구조적 희소성 적용 — 선형층 1.55배 가속, 생성 품질 유지

핵심 결론

방법

한계·조건

Comments