Papers·1개월 전

MoE 라우터 재설계 — 각 expert 의 주특이 방향과 정렬하는 Manifold Power Iteration

MoE 모델의 라우터 행을 각 expert 의 주특이 방향(principal singular direction)으로 정렬하는 MPI(Manifold Power Iteration) 기법을 제안했습니다. Power-then-Retract 패러다임으로 라우터 가중치를 업데이트해 정렬을 유도하며, 1B~11B 스케일의 사전학습 실험에서 기존 대비 더 효과적인 MoE 모델을 얻을 수 있었습니다. 다만 실험은 사전학습 perplexity 위주로 보고되었고, downstream task 성능이나 추론 효율 비교는 추후 필요해 보입니다.

MoE 라우터의 각 행이 해당 expert 의 주특이 방향과 정렬되도록 설계한 MPI 기법이 공개되었습니다.

핵심 결론

태스크 — MoE 사전학습에서 라우터 행을 expert 의 주특이 방향으로 정렬하는 새로운 학습 방법.
개선폭 — 1B~11B 파라미터 스케일에서 perplexity 기준 일관된 개선을 확인했습니다.

방법

핵심 아이디어 — 각 expert 의 가중치 행렬에 대해 SVD 로 주특이 방향을 구하고, 라우터 행이 그 방향으로 수렴하도록 power iteration 을 적용합니다.
Power-then-Retract — 라우터 가중치에 power iteration 한 스텝을 수행한 뒤, norm 제약을 걸어 안정성을 확보하는 패러다임입니다.
이론적으로는 라우터 행이 expert 의 주특이 벡터로 수렴함을 증명했습니다.

한계·조건

실험 범위 — 사전학습 perplexity 만 보고되었고, downstream task (예: MMLU, GSM8K) 에서의 성능은 아직 확인되지 않았습니다.
재현성 — 코드 공개 여부는 명시되지 않았으며, 실험은 특정 아키텍처(DeepSpeed-MoE 기반)에 한정됩니다.

편집자 한 줄

라우터와 expert 의 정렬을 명시적으로 유도한 점은 이론적으로 깔끔하지만, downstream 성능과 추론 비용 변화까지 확인되어야 실용성이 입증될 듯합니다.

#mixture-of-experts
#router
#singular-vector
#pretraining

Songhao Wu

원문 보기 →

MoE 라우터 재설계 — 각 expert 의 주특이 방향과 정렬하는 Manifold Power Iteration

핵심 결론

방법

한계·조건

Comments