Papers·1개월 전

dMoE: 블록 수준 MoE로 dLLM 추론 시 활성화 전문가 수 69.5→14.6으로 감소, 메모리 76% 절약

Diffusion LLM(dLLM)과 MoE를 결합할 때 발생하는 전문가 중복 활성화 문제를 해결한 dMoE 프레임워크가 공개됐습니다. 블록 내 토큰들의 전문가 분포를 집계해 하나의 블록 수준 분포로 통합, 라우팅 일관성을 높여 활성화 전문가 수를 평균 69.5개에서 14.6개로 줄이면서도 원 성능의 99.11%를 유지합니다. 메모리 사용량은 76~79% 감소, end-to-end 지연 시간은 1.14~1.66배 개선됐습니다. 코드는 GitHub에 공개됐습니다.

Diffusion LLM과 MoE를 결합하면 병렬 디코딩의 장점이 희석되는 문제를 dMoE가 블록 수준 라우팅으로 해결했습니다.

핵심 결론

성능 — 활성화 전문가 수를 69.5→14.6으로 79% 감소시키면서 원 성능의 99.11% 유지.
효율 — 메모리 사용량 76.64%~79.84% 감소, end-to-end 지연 시간 1.14~1.66배 단축.

방법

블록 수준 라우팅 — dLLM의 각 디코딩 블록 내 모든 토큰의 전문가 분포를 집계해 하나의 블록 수준 분포로 만든 뒤, 이 분포를 기반으로 전문가를 선택합니다.
기존 MoE가 토큰별로 독립 라우팅하던 것과 달리, 블록 내 토큰 간 전문가 선택을 일관되게 만들어 중복 활성화를 줄입니다.

한계·조건

실험 범위 — 벤치마크는 주로 언어 이해 및 생성 태스크이며, 이미지나 멀티모달 dLLM에서의 효과는 추가 검증이 필요합니다.
코드 — GitHub에 공개되어 재현 가능하나, 특정 dLLM 구조에 맞춰진 구현일 가능성이 있습니다.

편집자 한 줄

dLLM과 MoE의 조합에서 병목이었던 전문자 중복 문제를 깔끔하게 해결한 점이 인상적입니다. 다만 블록 크기나 전문가 수에 따른 민감도 분석이 더 있으면 좋겠네요.

#diffusion-llm
#moe
#inference-optimization
#dllm

Sicheng Feng

원문 보기 →

dMoE: 블록 수준 MoE로 dLLM 추론 시 활성화 전문가 수 69.5→14.6으로 감소, 메모리 76% 절약

핵심 결론

방법

한계·조건

Comments