← Back to feed
Papers·3일 전

Mix-MoE: 언어 모델 전문가와 번역 전문가를 분리한 다국어 번역 MoE 프레임워크 — 8개 언어 쌍에서 BLEU +3.2

Mix-MoE: 언어 모델 전문가와 번역 전문가를 분리한 다국어 번역 MoE 프레임워크 — 8개 언어 쌍에서 BLEU +3.2

Mix-MoE는 LLM의 다국어 기계 번역에서 파라미터 간섭 문제를 해결하기 위해 MoE 레이어를 언어 모델 전문가(LM Expert)와 번역 전문가(MT Expert)로 분리하는 프레임워크입니다. 1단계 단일 언어 코퍼스 사전 학습 후 2단계 병렬 코퍼스 사전 학습을 진행하며, 푸리에 변환 기반 라우팅 메커니즘으로 전문가 간 상호작용을 강화합니다. 실험 결과 기존 대비 BLEU +3.2 향상 및 파라미터 간섭 완화 효과를 보였습니다.

  • #multilingual-translation
  • #mixture-of-experts
  • #parameter-interference
  • #llm
Bo Li

Comments

— 첫 댓글을 남겨보세요 —