Papers·2일 전

Alibaba, MoE 추론 가속화하는 BEAM 공개 — FLOPs 85% 감소, 디코딩 2.5배

Alibaba 팀이 MoE 모델의 추론 효율을 높이는 BEAM(Binary Expert Activation Masking)을 제안했습니다. 학습 가능한 이진 마스크로 토큰별 전문가 선택을 동적으로 조절해, 추가 학습 없이 MoE 레이어 FLOPs를 최대 85% 줄이면서도 원 모델 성능의 98% 이상을 유지합니다. vLLM과 통합된 CUDA 커널을 제공하며, 디코딩 속도는 2.5배, 처리량은 1.4배 향상되었습니다. 다만 고희소성 영역에서의 성능 저하 가능성과 특정 하드웨어 최적화 의존성은 추가 검증이 필요해 보입니다.

#moe
#inference-acceleration
#alibaba
#binary-masking

alibaba-inc

원문 보기 →

Alibaba, MoE 추론 가속화하는 BEAM 공개 — FLOPs 85% 감소, 디코딩 2.5배

Comments