← Back to feed
Papers·2주 전

MoE → Dense 변환 프레임워크 — Qwen3-30B-A3B 에서 350개 실험, 밀집 변환 후 정확도 +6.3pp

MoE → Dense 변환 프레임워크 — Qwen3-30B-A3B 에서 350개 실험, 밀집 변환 후 정확도 +6.3pp

KRAFTON 팀이 학습된 MoE 모델을 표준 Dense 아키텍처로 변환하는 첫 체계적 프레임워크를 제안했습니다. 전문가 점수·선택·그룹화 후 Dense FFN 으로 연결하고 지식 증류로 정제하는 방식으로, Qwen3-30B-A3B 기준 350개 설정을 실험했습니다. 동일 파라미터 수 비교에서 Dense-to-Dense 가지치기 대비 평균 정확도가 6.3%p 높았고, 증류 속도는 1.6배 빨랐습니다. 단, 증류 데이터 약 4B 토큰이 필요하고 선택된 전문가 수에 따라 성능이 크게 달라진다는 한계가 있습니다.

KRAFTON 팀이 MoE 모델을 Dense 모델로 변환하는 첫 체계적 프레임워크를 공개했습니다. 350개 설정 실험 결과, Dense-to-Dense 가지치기보다 평균 정확도 6.3%p 높았습니다.

핵심 결론

  • 태스크MoE → Dense 변환 프레임워크 제안. Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B 로 검증.
  • 개선폭동일 파라미터 수 대비 Dense-to-Dense 가지치기보다 평균 정확도 +6.3%p, 증류 속도 1.6배 향상.
  • 최적 구성전문가 점수화 방법이 가장 중요하며, 제안한 diversity-aware scoring 이 기존 방법보다 일관되게 우수.

방법

  • 변환 파이프라인전문가 점수화 → 선택 → 그룹화 → Dense FFN 으로 연결 → MoE 교사로부터 지식 증류.
  • 점수화 7종L1, L2 norm, random, activation-based 등 7가지 방법 중 diversity-aware scoring 이 최고 성능.
  • 그룹화 5종K-means, random, similarity-based 등 5가지 방법 실험. 점수화보다 영향은 작았음.
  • 증류약 4B 토큰으로 증류, Dense-to-Dense 가지치기보다 1.6배 빠른 wall-clock 속도.

한계·조건

  • 데이터증류에 약 4B 토큰이 필요하며, 데이터 품질에 따라 결과가 달라질 수 있음.
  • 선택 수선택된 전문가 수가 성능에 큰 영향을 미치며, 최적 값은 모델마다 다름.
  • 범위Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B 세 모델로만 검증. 더 큰 MoE 에서의 일반화는 미확인.
  • 코드GitHub 공개 예정 — 현재는 논문 내 실험 결과만 공개.

편집자 한 줄

MoE 를 Dense 로 변환하는 실용적인 레시피를 체계적으로 정리한 점이 인상적입니다. 증류 비용이 부담되지 않는 환경이라면 한 번 시도해볼 만합니다.

  • #mixture-of-experts
  • #knowledge-distillation
  • #model-compression
  • #qwen
  • #krafton
KRAFTON
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —