Papers·1개월 전

ZEDA: 정적 MoE를 동적 MoE로 변환 — 50% 이상 FLOPs 감소, 1.2배 속도 향상

Tsinghua 연구팀이 사전 학습된 정적 MoE 모델을 동적 MoE로 변환하는 저비용 프레임워크 ZEDA를 제안했습니다. 각 MoE 레이어에 zero-output 전문가를 추가하고, 원본 MoE를 teacher로 활용한 2단계 자기 증류와 group-level balancing loss로 학습을 안정화합니다. Qwen3-30B-A3B와 GLM-4.7-Flash에서 11개 벤치마크 평가 결과, 50% 이상의 expert FLOPs를 제거하면서도 정확도 손실은 미미했고, 기존 동적 MoE 대비 6.1점, 4.0점 높은 성능을 기록했습니다. 다만 변환 과정에서 추가 학습이 필요하며, end-to-end 속도 향상은 약 1.2배로 제한적입니다.

#mixture-of-experts
#dynamic-moe
#self-distillation
#tsinghua

Tsinghua University

원문 보기 →

ZEDA: 정적 MoE를 동적 MoE로 변환 — 50% 이상 FLOPs 감소, 1.2배 속도 향상

Comments