← Back to feed
Papers·어제

MiniMax M3 + MaxProof — IMO 2025 35/42, USAMO 2026 36/42 로 인류 금메달 기준 돌파

MiniMax M3 + MaxProof — IMO 2025 35/42, USAMO 2026 36/42 로 인류 금메달 기준 돌파

MiniMax 가 공개한 M3 모델과 MaxProof 테스트-타임 스케일링 프레임워크가 IMO 2025 에서 35/42, USAMO 2026 에서 36/42 를 기록, 두 대회 모두 인간 금메달 기준을 넘겼습니다. 핵심은 증명 생성·검증·수정 세 능력을 하나의 모델에 통합하고, 테스트 시점에 tournament selection 으로 후보 증명을 집단 탐색하는 방식입니다. 단, 이 수치는 competition-level 문제에 특화된 벤치마크이며, 일반 수학 추론으로의 일반화는 추가 검증이 필요해 보입니다.

MiniMax M3 시리즈가 competition-level 수학 증명에서 인간 금메달 기준을 넘는 성과를 냈습니다.

핵심 결론

  • IMO 202535/42 점 — 인간 금메달 기준(34/42) 초과.
  • USAMO 202636/42 점 — 역시 금메달 기준(33/42) 상회.
  • 방식테스트-타임 스케일링(MaxProof)을 통해 단일 모델의 증명 생성·검증·수정 능력을 집단 탐색으로 연결.

방법

  • 세 가지 능력증명 생성, 증명 검증, critique-conditioned 증명 수정을 별도 학습 후 하나의 M3 모델로 병합.
  • 검증기Defense-in-depth generative verifier — 낮은 false-positive rate 를 엔지니어링한 점이 특징.
  • 테스트-타임MaxProof: 모델을 generator, verifier, refiner, ranker 로 동시에 사용, tournament selection 으로 최종 증명 하나를 선택.

한계·조건

  • 범위IMO/USAMO 스타일 competition 문제에 특화 — 일반 수학 추론이나 open-ended 문제에서의 성능은 보고되지 않음.
  • 비용테스트-타임 스케일링은 population search 를 전제하므로, 단일 샷 추론보다 compute cost 가 크게 증가합니다.
  • 코드Hugging Face 에 모델 가중치는 공개되었으나, MaxProof 의 전체 파이프라인 코드는 별도 공개 여부 미정.

편집자 한 줄

인간 금메달 기준을 넘긴 건 인상적이지만, 문제 유형이 제한적이고 compute cost 가 높아 실용성은 좀 더 지켜봐야 할 것 같습니다.

  • #test-time-scaling
  • #mathematical-proof
  • #minimax
  • #m3
  • #maxproof
MiniMax
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —