Papers·6일 전

Amazon proposes expert upcycling — MoE expansion via duplication saves 32% GPU hours at 7B-13B scale

Amazon 연구진이 MoE 모델의 전문가 수를 점진적으로 늘리는 expert upcycling 기법을 제안했다. 기존 E-전문가 모델에서 전문가 복제와 라우터 확장을 통해 mE-전문가 모델로 확장하며, top-K 라우팅을 고정해 추론 비용을 유지한다. 7B-13B 총 파라미터 실험에서 고정 크기 기준선과 동등한 검증 손실을 달성하면서 GPU 시간을 32% 절약했다. 복제로 인한 초기화 이점과 비균등 복제를 위한 유틸리티 기반 전문가 선택이 핵심이며, 제한된 CPT 환경에서 격차 해소를 3배 이상 개선한다.

#mixture-of-experts
#efficient-scaling
#amazon

Amazon

원문 보기 →

Amazon proposes expert upcycling — MoE expansion via duplication saves 32% GPU hours at 7B-13B scale

Comments