Papers·어제
MiniMax M3 + MaxProof — IMO 2025 35/42, USAMO 2026 36/42 로 인류 금메달 기준 돌파

MiniMax 가 공개한 M3 모델과 MaxProof 테스트-타임 스케일링 프레임워크가 IMO 2025 에서 35/42, USAMO 2026 에서 36/42 를 기록, 두 대회 모두 인간 금메달 기준을 넘겼습니다. 핵심은 증명 생성·검증·수정 세 능력을 하나의 모델에 통합하고, 테스트 시점에 tournament selection 으로 후보 증명을 집단 탐색하는 방식입니다. 단, 이 수치는 competition-level 문제에 특화된 벤치마크이며, 일반 수학 추론으로의 일반화는 추가 검증이 필요해 보입니다.
MiniMax M3 시리즈가 competition-level 수학 증명에서 인간 금메달 기준을 넘는 성과를 냈습니다.
핵심 결론
- IMO 2025 — 35/42 점 — 인간 금메달 기준(34/42) 초과.
- USAMO 2026 — 36/42 점 — 역시 금메달 기준(33/42) 상회.
- 방식 — 테스트-타임 스케일링(MaxProof)을 통해 단일 모델의 증명 생성·검증·수정 능력을 집단 탐색으로 연결.
방법
- 세 가지 능력 — 증명 생성, 증명 검증, critique-conditioned 증명 수정을 별도 학습 후 하나의 M3 모델로 병합.
- 검증기 — Defense-in-depth generative verifier — 낮은 false-positive rate 를 엔지니어링한 점이 특징.
- 테스트-타임 — MaxProof: 모델을 generator, verifier, refiner, ranker 로 동시에 사용, tournament selection 으로 최종 증명 하나를 선택.
한계·조건
- 범위 — IMO/USAMO 스타일 competition 문제에 특화 — 일반 수학 추론이나 open-ended 문제에서의 성능은 보고되지 않음.
- 비용 — 테스트-타임 스케일링은 population search 를 전제하므로, 단일 샷 추론보다 compute cost 가 크게 증가합니다.
- 코드 — Hugging Face 에 모델 가중치는 공개되었으나, MaxProof 의 전체 파이프라인 코드는 별도 공개 여부 미정.
편집자 한 줄
인간 금메달 기준을 넘긴 건 인상적이지만, 문제 유형이 제한적이고 compute cost 가 높아 실용성은 좀 더 지켜봐야 할 것 같습니다.
- #test-time-scaling
- #mathematical-proof
- #minimax
- #m3
- #maxproof
MiniMax