Papers·1개월 전

MiniMax-M2 시리즈 — 229.9B 파라미터 중 9.8B 활성화로 에이전트 태스크에서 최고 수준 성능

MiniMax가 Mixture-of-Experts 아키텍처 기반 M2 시리즈를 공개했습니다. 플래그십 M2는 총 229.9B 파라미터 중 토큰당 9.8B만 활성화하며, 에이전트 코딩·딥 서치·오피스 태스크·추론 벤치마크에서 frontier급 성능을 달성했습니다. 핵심은 에이전트 주도 데이터 파이프라인, 장기 에이전트 궤적에 최적화된 RL 시스템 Forge, 그리고 자체 스캐폴드를 수정하는 자가 진화 기능(M2.7)입니다.

MiniMax가 229.9B 파라미터 중 9.8B만 활성화하는 MoE 모델 M2 시리즈를 통해 에이전트 태스크에서 frontier급 성능을 달성했습니다.

핵심 결론

규모 — M2: 총 229.9B, 활성 9.8B 파라미터. M2.7까지 포함된 시리즈.
성능 — 에이전트 코딩, 딥 서치, 오피스 태스크, 추론 벤치마크에서 frontier급 성능.
특히 M2.7은 자체 훈련 디버깅과 스캐폴드 수정이 가능한 자가 진화 기능을 시연했습니다.

방법

데이터 — 에이전트 주도 파이프라인으로 대규모 검증 가능한 궤적(agentic coding, agentic cowork) 생성. 실행 가능한 워크스페이스와 아티팩트 정렬 보상 사용.
RL 시스템 — Forge: 장기 에이전트 궤적에 적응하는 확장 가능한 RL 시스템. windowed-FIFO 스케줄링, prefix-tree 병합, 추론 최적화, 화이트박스/블랙박스 에이전트 모두 지원.
훈련-추론-에이전트 디커플링을 통해 깔끔한 분리가 가능합니다.

한계·조건

공개 — 현재 논문과 기술 보고서만 공개. 모델 가중치 공개 여부는 불명.
비용 — 229.9B 파라미터 모델의 훈련 및 추론 비용에 대한 구체적 정보는 논문에 없습니다.
자가 진화 기능(M2.7)은 초기 단계로, 실제 배포 안정성은 추가 검증이 필요합니다.

편집자 한 줄

활성 파라미터 대비 성능 효율이 인상적이지만, 에이전트 태스크 특화 평가가 많아 일반 NLP 벤치마크와의 비교는 추가로 확인해야 할 만합니다.

#mixture-of-experts
#agent
#reinforcement-learning
#minimax

MiniMax

원문 보기 →

MiniMax-M2 시리즈 — 229.9B 파라미터 중 9.8B 활성화로 에이전트 태스크에서 최고 수준 성능

핵심 결론

방법

한계·조건

Comments