Papers·1개월 전

Meta MobileMoE: 0.3B 활성 파라미터로 2~4배 빠른 온디바이스 MoE 언어모델

Meta AI가 모바일 환경에 최적화된 MoE 언어모델 MobileMoE를 공개했습니다. 0.3~0.9B 활성 파라미터(총 1.3~5.3B)로 기존 온디바이스 dense 모델 대비 2~4배 적은 FLOPs로 동등 이상의 성능을 달성했고, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁합니다. 핵심은 모바일 메모리와 연산 제약을 함께 고려한 scaling law로 찾은 '적당한 sparsity + fine-grained 및 shared expert' 조합이며, 4단계 학습 레시피(사전학습→중간학습→지시튜닝→양자화인식학습)를 오픈소스 데이터로만 진행했습니다. 실제 스마트폰에서 INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠른 추론을 보였습니다.

Meta AI가 모바일 기기에서 동작하는 MoE 언어모델 MobileMoE를 발표했습니다. 0.3~0.9B 활성 파라미터로 기존 dense 모델 대비 2~4배 효율적입니다.

핵심 결론

성능 — 14개 벤치마크에서 기존 온디바이스 dense LLM과 동등 이상, OLMoE-1B-7B 대비 최대 60% 적은 파라미터로 경쟁.
추론 속도 — INT4 기준 MobileLLM-Pro 대비 prefill 1.8~3.8배, decode 2.2~3.4배 빠름.

방법

Scaling law — 모바일 메모리와 연산 제약을 동시에 고려한 on-device MoE scaling law를 수립, moderate sparsity + fine-grained & shared expert 조합이 최적임을 발견.
학습 레시피 — 4단계(사전학습→중간학습→지시튜닝→양자화인식학습)를 모두 오픈소스 데이터로 진행.
실제 스마트폰(OnePlus 12 등)에서 종단간 추론 프로파일링을 제공하며, 이는 MoE 모델의 모바일 배포 최초 사례입니다.

한계·조건

파라미터 규모 — 활성 파라미터 0.3~0.9B로, 1B 이상의 MoE나 dense 모델과의 비교는 아직.
데이터 — 학습 데이터는 공개되었으나, 일부 데이터셋의 라이선스는 별도 확인 필요.
재현성 — 코드와 모델 가중치는 공개 예정이라고 밝혔으나 현재는 논문과 기술 보고서만 공개.

편집자 한 줄

온디바이스 MoE의 실용성을 실제 스마트폰 벤치로 보여준 점이 인상적입니다. 다만 1B 미만 활성 파라미터에서의 비교이므로, 더 큰 모델과의 격차는 후속 연구를 지켜봐야겠네요.

#mixture-of-experts
#on-device
#meta
#mobile
#efficient-inference

AI at Meta

원문 보기 →

Meta MobileMoE: 0.3B 활성 파라미터로 2~4배 빠른 온디바이스 MoE 언어모델

핵심 결론

방법

한계·조건

Comments