← Back to feed
Papers·어제

Meta MobileMoE: 0.3B 활성 파라미터로 2~4배 빠른 온디바이스 MoE 언어모델

Meta MobileMoE: 0.3B 활성 파라미터로 2~4배 빠른 온디바이스 MoE 언어모델

Meta AI가 모바일 환경에 최적화된 MoE 언어모델 MobileMoE를 공개했습니다. 0.3~0.9B 활성 파라미터(총 1.3~5.3B)로 기존 온디바이스 dense 모델 대비 2~4배 적은 FLOPs로 동등 이상의 성능을 달성했고, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁합니다. 핵심은 모바일 메모리와 연산 제약을 함께 고려한 scaling law로 찾은 '적당한 sparsity + fine-grained 및 shared expert' 조합이며, 4단계 학습 레시피(사전학습→중간학습→지시튜닝→양자화인식학습)를 오픈소스 데이터로만 진행했습니다. 실제 스마트폰에서 INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠른 추론을 보였습니다.

Meta AI가 모바일 기기에서 동작하는 MoE 언어모델 MobileMoE를 발표했습니다. 0.3~0.9B 활성 파라미터로 기존 dense 모델 대비 2~4배 효율적입니다.

핵심 결론

  • 성능14개 벤치마크에서 기존 온디바이스 dense LLM과 동등 이상, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁.
  • 추론 속도INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠름.

방법

  • Scaling law모바일 메모리와 연산 제약을 동시에 고려한 on-device MoE scaling law를 수립, moderate sparsity + fine-grained & shared expert 조합이 최적임을 발견.
  • 학습 레시피4단계(사전학습→중간학습→지시튜닝→양자화인식학습)를 모두 오픈소스 데이터로 진행.
  • 실제 스마트폰(OnePlus 12 등)에서 종단간 추론 프로파일링을 제공하며, 이는 MoE 모델의 모바일 배포 최초 사례입니다.

한계·조건

  • 파라미터 규모활성 파라미터 0.3~0.9B로, 1B 이상의 MoE나 dense 모델과의 비교는 아직.
  • 데이터학습 데이터는 공개되었으나, 일부 데이터셋의 라이선스는 별도 확인 필요.
  • 재현성코드와 모델 가중치는 공개 예정이라고 밝혔으나 현재는 논문과 기술 보고서만 공개.

편집자 한 줄

온디바이스 MoE의 실용성을 실제 스마트폰 벤치로 보여준 점이 인상적입니다. 다만 1B 미만 활성 파라미터에서의 비교이므로, 더 큰 모델과의 격차는 후속 연구를 지켜봐야겠네요.

  • #mixture-of-experts
  • #on-device
  • #meta
  • #mobile
  • #efficient-inference
AI at Meta
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —