Papers·1개월 전

TIDE: MoE dLLM 추론 가속 — I/O 인식 전문가 갱신으로 최대 1.5x throughput

TIDE는 MoE 기반 Diffusion LLM(dLLM) 추론을 가속하는 무손실 최적화 기법입니다. 블록 내 확산 과정에서 전문가 활성화의 시간적 안정성을 활용해 I/O 인식 간격 기반 갱신 전략을 도입했으며, 수학적 프로그래밍으로 최적 간격을 계산합니다. 단일 GPU-CPU 시스템에서 LLaDA2.0-mini와 LLaDA2.0-flash 모델에 대해 각각 1.4배, 1.5배 throughput 향상을 달성했고, 별도 학습이 필요 없는 점이 특징입니다.

#diffusion-llm
#moe
#inference-optimization
#tide

Zhiben Chen

원문 보기 →

TIDE: MoE dLLM 추론 가속 — I/O 인식 전문가 갱신으로 최대 1.5x throughput

Comments