Papers·1개월 전

JetBrains, 12B MoE 코드 특화 모델 Mellum 2 공개 — 활성 파라미터 2.5B로 4B~14B급 성능

JetBrains가 12B MoE (64 experts, 8 active) 기반의 소프트웨어 엔지니어링 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터는 2.5B에 불과하지만, 코드 생성·수학·추론·도구 사용 등에서 4B~14B급 오픈 모델과 경쟁합니다. 아키텍처는 GQA, Sliding Window Attention, Multi-Token Prediction 헤드를 조합했고, 128K 컨텍스트를 지원합니다. Instruct와 Thinking(추론 과정 출력) 두 변종이 있으며, Apache 2.0 라이선스로 공개되었습니다.

JetBrains가 12B MoE 코드 특화 모델 Mellum 2를 공개했습니다. 활성 파라미터 2.5B로 4B~14B급 성능을 내며, Apache 2.0 라이선스로 공개되었습니다.

핵심 결론

모델 — 12B MoE (64 experts, 8 active), 활성 파라미터 2.5B.
성능 — 코드 생성, 수학, 추론, 도구 사용, 안전성 벤치마크에서 4B~14B급 오픈 모델과 경쟁.
변종 — Instruct (직접 답변)와 Thinking (추론 과정 출력) 두 가지.

방법

아키텍처 — GQA (4 KV heads), Sliding Window Attention (3/4 레이어), Multi-Token Prediction 헤드 (보조 목적 + speculative decoding용 draft 모델).
학습 — 약 10.6T 토큰, 3단계 커리큘럼 (웹 → 코드+수학), Muon 옵티마이저, FP8 혼합 정밀도.
컨텍스트 — 128K 컨텍스트로 확장 (layer-selective YaRN).
정렬 — SFT 후 RLVR (Reinforcement Learning from Verifiable Rewards)로 Instruct/Thinking 변종 생성.

한계·조건

벤치 — 비교 대상이 4B~14B급 오픈 모델에 한정됨. 더 큰 모델과의 비교는 없음.
라이선스 — Apache 2.0, 가중치와 보고서 모두 공개.
재현성 — 학습 데이터 구성과 하이퍼파라미터는 보고서에 상세히 기술되었으나, 전체 데이터셋은 공개되지 않음.

편집자 한 줄

활성 파라미터 2.5B로 12B급 MoE의 효율을 보여주는 점이 인상적입니다. 코드 특화 모델로서 JetBrains의 도구 생태계와의 연계도 기대됩니다.

#moe
#code-generation
#jetbrains
#open-weights
#speculative-decoding

JetBrains

원문 보기 →

JetBrains, 12B MoE 코드 특화 모델 Mellum 2 공개 — 활성 파라미터 2.5B로 4B~14B급 성능

핵심 결론

방법

한계·조건

Comments