Papers·6일 전

EMO: 문서 경계만으로 전문가 그룹을 자율 조직화하는 MoE — 25% 전문가만 써도 성능 1% 하락

Ai2 팀이 문서 단위로 전문가 선택을 제약하는 MoE 아키텍처 EMO를 제안했습니다. 1B 활성/14B 전체 파라미터 모델을 1T 토큰으로 사전학습한 결과, 전체 모델 성능은 표준 MoE와 동등하면서도 25% 전문가만 사용해도 절대 성능 하락이 1%에 그칩니다. 표준 MoE는 같은 조건에서 심각한 성능 저하를 보입니다. 흥미로운 점은 EMO의 전문가 하위 집합이 수학·코드 같은 의미 수준에서 특화된다는 점으로, 저수준 구문 특화에 그치는 표준 MoE와 대비됩니다. 다만 14B 전체 크기와 1T 토큰 학습이라는 리소스 요구가 재현성을 제한합니다.

#mixture-of-experts
#modularity
#efficiency
#ai2

Ai2

원문 보기 →

EMO: 문서 경계만으로 전문가 그룹을 자율 조직화하는 MoE — 25% 전문가만 써도 성능 1% 하락

Comments