Papers·1개월 전

MoE → Dense 변환 프레임워크 — Qwen3-30B-A3B 에서 350개 실험, 밀집 변환 후 정확도 +6.3pp

KRAFTON 팀이 학습된 MoE 모델을 표준 Dense 아키텍처로 변환하는 첫 체계적 프레임워크를 제안했습니다. 전문가 점수·선택·그룹화 후 Dense FFN 으로 연결하고 지식 증류로 정제하는 방식으로, Qwen3-30B-A3B 기준 350개 설정을 실험했습니다. 동일 파라미터 수 비교에서 Dense-to-Dense 가지치기 대비 평균 정확도가 6.3%p 높았고, 증류 속도는 1.6배 빨랐습니다. 단, 증류 데이터 약 4B 토큰이 필요하고 선택된 전문가 수에 따라 성능이 크게 달라진다는 한계가 있습니다.

KRAFTON 팀이 MoE 모델을 Dense 모델로 변환하는 첫 체계적 프레임워크를 공개했습니다. 350개 설정 실험 결과, Dense-to-Dense 가지치기보다 평균 정확도 6.3%p 높았습니다.

핵심 결론

태스크 — MoE → Dense 변환 프레임워크 제안. Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B 로 검증.
개선폭 — 동일 파라미터 수 대비 Dense-to-Dense 가지치기보다 평균 정확도 +6.3%p, 증류 속도 1.6배 향상.
최적 구성 — 전문가 점수화 방법이 가장 중요하며, 제안한 diversity-aware scoring 이 기존 방법보다 일관되게 우수.

방법

변환 파이프라인 — 전문가 점수화 → 선택 → 그룹화 → Dense FFN 으로 연결 → MoE 교사로부터 지식 증류.
점수화 7종 — L1, L2 norm, random, activation-based 등 7가지 방법 중 diversity-aware scoring 이 최고 성능.
그룹화 5종 — K-means, random, similarity-based 등 5가지 방법 실험. 점수화보다 영향은 작았음.
증류 — 약 4B 토큰으로 증류, Dense-to-Dense 가지치기보다 1.6배 빠른 wall-clock 속도.

한계·조건

데이터 — 증류에 약 4B 토큰이 필요하며, 데이터 품질에 따라 결과가 달라질 수 있음.
선택 수 — 선택된 전문가 수가 성능에 큰 영향을 미치며, 최적 값은 모델마다 다름.
범위 — Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B 세 모델로만 검증. 더 큰 MoE 에서의 일반화는 미확인.
코드 — GitHub 공개 예정 — 현재는 논문 내 실험 결과만 공개.

편집자 한 줄

MoE 를 Dense 로 변환하는 실용적인 레시피를 체계적으로 정리한 점이 인상적입니다. 증류 비용이 부담되지 않는 환경이라면 한 번 시도해볼 만합니다.

#mixture-of-experts
#knowledge-distillation
#model-compression
#qwen
#krafton

KRAFTON

원문 보기 →

MoE → Dense 변환 프레임워크 — Qwen3-30B-A3B 에서 350개 실험, 밀집 변환 후 정확도 +6.3pp

핵심 결론

방법

한계·조건

Comments