Papers·어제
Meta MobileMoE: 0.3B 활성 파라미터로 2~4배 빠른 온디바이스 MoE 언어모델

Meta AI가 모바일 환경에 최적화된 MoE 언어모델 MobileMoE를 공개했습니다. 0.3~0.9B 활성 파라미터(총 1.3~5.3B)로 기존 온디바이스 dense 모델 대비 2~4배 적은 FLOPs로 동등 이상의 성능을 달성했고, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁합니다. 핵심은 모바일 메모리와 연산 제약을 함께 고려한 scaling law로 찾은 '적당한 sparsity + fine-grained 및 shared expert' 조합이며, 4단계 학습 레시피(사전학습→중간학습→지시튜닝→양자화인식학습)를 오픈소스 데이터로만 진행했습니다. 실제 스마트폰에서 INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠른 추론을 보였습니다.
Meta AI가 모바일 기기에서 동작하는 MoE 언어모델 MobileMoE를 발표했습니다. 0.3~0.9B 활성 파라미터로 기존 dense 모델 대비 2~4배 효율적입니다.
핵심 결론
- 성능 — 14개 벤치마크에서 기존 온디바이스 dense LLM과 동등 이상, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁.
- 추론 속도 — INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠름.
방법
- Scaling law — 모바일 메모리와 연산 제약을 동시에 고려한 on-device MoE scaling law를 수립, moderate sparsity + fine-grained & shared expert 조합이 최적임을 발견.
- 학습 레시피 — 4단계(사전학습→중간학습→지시튜닝→양자화인식학습)를 모두 오픈소스 데이터로 진행.
- 실제 스마트폰(OnePlus 12 등)에서 종단간 추론 프로파일링을 제공하며, 이는 MoE 모델의 모바일 배포 최초 사례입니다.
한계·조건
- 파라미터 규모 — 활성 파라미터 0.3~0.9B로, 1B 이상의 MoE나 dense 모델과의 비교는 아직.
- 데이터 — 학습 데이터는 공개되었으나, 일부 데이터셋의 라이선스는 별도 확인 필요.
- 재현성 — 코드와 모델 가중치는 공개 예정이라고 밝혔으나 현재는 논문과 기술 보고서만 공개.
편집자 한 줄
온디바이스 MoE의 실용성을 실제 스마트폰 벤치로 보여준 점이 인상적입니다. 다만 1B 미만 활성 파라미터에서의 비교이므로, 더 큰 모델과의 격차는 후속 연구를 지켜봐야겠네요.
- #mixture-of-experts
- #on-device
- #meta
- #mobile
- #efficient-inference
AI at Meta