Papers·2일 전

CUHK, MoE 전문가 풀을 공유하는 UniPool 제안 — 41.6% 파라미터로 vanilla MoE 성능 상회

CUHK 연구팀이 각 층이 독립적으로 전문가를 가지는 기존 MoE 구조를 깨고, 모든 층이 하나의 공유 전문가 풀을 사용하는 UniPool 아키텍처를 제안했습니다. 182M~978M 파라미터 규모의 LLaMA 모델을 30B 토큰으로 학습한 결과, validation loss가 최대 0.0386 감소했으며, vanilla MoE 대비 41.6%~66.7%의 전문가 파라미터만으로도 동등하거나 더 나은 성능을 달성했습니다. 이는 전문가 파라미터가 층 깊이에 선형적으로 증가할 필요가 없음을 보여줍니다. 단, 30B 토큰 학습 기준이며 더 큰 스케일에서의 검증이 필요합니다.

#moe
#unipool
#cuhk
#efficiency

CUHK

원문 보기 →

CUHK, MoE 전문가 풀을 공유하는 UniPool 제안 — 41.6% 파라미터로 vanilla MoE 성능 상회

Comments