← Back to feed
Papers·4일 전

JetBrains, 12B MoE 코드 특화 모델 Mellum 2 공개 — 활성 파라미터 2.5B로 4B~14B급 성능

JetBrains, 12B MoE 코드 특화 모델 Mellum 2 공개 — 활성 파라미터 2.5B로 4B~14B급 성능

JetBrains가 12B MoE (64 experts, 8 active) 기반의 소프트웨어 엔지니어링 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터는 2.5B에 불과하지만, 코드 생성·수학·추론·도구 사용 등에서 4B~14B급 오픈 모델과 경쟁합니다. 아키텍처는 GQA, Sliding Window Attention, Multi-Token Prediction 헤드를 조합했고, 128K 컨텍스트를 지원합니다. Instruct와 Thinking(추론 과정 출력) 두 변종이 있으며, Apache 2.0 라이선스로 공개되었습니다.

JetBrains가 12B MoE 코드 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터 2.5B로 4B~14B급 성능을 내며, Apache 2.0 라이선스로 공개되었습니다.

핵심 결론

  • 모델12B MoE (64 experts, 8 active), 활성 파라미터 2.5B.
  • 성능코드 생성, 수학, 추론, 도구 사용, 안전성 벤치마크에서 4B~14B급 오픈 모델과 경쟁.
  • 변종Instruct (직접 답변)와 Thinking (추론 과정 출력) 두 가지.

방법

  • 아키텍처GQA (4 KV heads), Sliding Window Attention (3/4 레이어), Multi-Token Prediction 헤드 (보조 목적 + speculative decoding용 draft 모델).
  • 학습약 10.6T 토큰, 3단계 커리큘럼 (웹 → 코드+수학), Muon 옵티마이저, FP8 혼합 정밀도.
  • 컨텍스트128K 컨텍스트로 확장 (layer-selective YaRN).
  • 정렬SFT 후 RLVR (Reinforcement Learning from Verifiable Rewards)로 Instruct/Thinking 변종 생성.

한계·조건

  • 벤치비교 대상이 4B~14B급 오픈 모델에 한정됨. 더 큰 모델과의 비교는 없음.
  • 라이선스Apache 2.0, 가중치와 보고서 모두 공개.
  • 재현성학습 데이터 구성과 하이퍼파라미터는 보고서에 상세히 기술되었으나, 전체 데이터셋은 공개되지 않음.

편집자 한 줄

활성 파라미터 2.5B로 12B급 MoE의 효율을 보여주는 점이 인상적입니다. 코드 특화 모델로서 JetBrains의 도구 생태계와의 연계도 기대됩니다.

  • #moe
  • #code-generation
  • #jetbrains
  • #open-weights
  • #speculative-decoding
JetBrains
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —