Papers·4일 전
JetBrains, 12B MoE 코드 특화 모델 Mellum 2 공개 — 활성 파라미터 2.5B로 4B~14B급 성능

JetBrains가 12B MoE (64 experts, 8 active) 기반의 소프트웨어 엔지니어링 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터는 2.5B에 불과하지만, 코드 생성·수학·추론·도구 사용 등에서 4B~14B급 오픈 모델과 경쟁합니다. 아키텍처는 GQA, Sliding Window Attention, Multi-Token Prediction 헤드를 조합했고, 128K 컨텍스트를 지원합니다. Instruct와 Thinking(추론 과정 출력) 두 변종이 있으며, Apache 2.0 라이선스로 공개되었습니다.
JetBrains가 12B MoE 코드 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터 2.5B로 4B~14B급 성능을 내며, Apache 2.0 라이선스로 공개되었습니다.
핵심 결론
- 모델 — 12B MoE (64 experts, 8 active), 활성 파라미터 2.5B.
- 성능 — 코드 생성, 수학, 추론, 도구 사용, 안전성 벤치마크에서 4B~14B급 오픈 모델과 경쟁.
- 변종 — Instruct (직접 답변)와 Thinking (추론 과정 출력) 두 가지.
방법
- 아키텍처 — GQA (4 KV heads), Sliding Window Attention (3/4 레이어), Multi-Token Prediction 헤드 (보조 목적 + speculative decoding용 draft 모델).
- 학습 — 약 10.6T 토큰, 3단계 커리큘럼 (웹 → 코드+수학), Muon 옵티마이저, FP8 혼합 정밀도.
- 컨텍스트 — 128K 컨텍스트로 확장 (layer-selective YaRN).
- 정렬 — SFT 후 RLVR (Reinforcement Learning from Verifiable Rewards)로 Instruct/Thinking 변종 생성.
한계·조건
- 벤치 — 비교 대상이 4B~14B급 오픈 모델에 한정됨. 더 큰 모델과의 비교는 없음.
- 라이선스 — Apache 2.0, 가중치와 보고서 모두 공개.
- 재현성 — 학습 데이터 구성과 하이퍼파라미터는 보고서에 상세히 기술되었으나, 전체 데이터셋은 공개되지 않음.
편집자 한 줄
활성 파라미터 2.5B로 12B급 MoE의 효율을 보여주는 점이 인상적입니다. 코드 특화 모델로서 JetBrains의 도구 생태계와의 연계도 기대됩니다.
- #moe
- #code-generation
- #jetbrains
- #open-weights
- #speculative-decoding
JetBrains