← Back to feed
Ships·2년 전

Hugging Face, makeMoE 공개 — 스파스 MoE 언어 모델을 스크래치부터 구현

Hugging Face, makeMoE 공개 — 스파스 MoE 언어 모델을 스크래치부터 구현

Hugging Face 커뮤니티 아티클로, 스파스 mixture of experts 언어 모델을 처음부터 구현하는 방법을 다룹니다. Andrej Karpathy의 makemore 프로젝트를 기반으로, 단일 FFN 대신 top-k 게이팅과 noisy top-k 게이팅을 적용한 MoE를 탑재했네요. Kaiming He 초기화를 기본으로 하지만 Xavier 등으로 교체 가능해 실험용으로 쓸 만합니다. 다만 캐릭터 레벨 모델이라 실제 프로덕션보다는 아키텍처 이해용입니다.

  • #huggingface
  • #mixture-of-experts
  • #language-model
  • #tutorial
Hugging Face

Comments

— 첫 댓글을 남겨보세요 —