Papers·1개월 전

MiniMax, 109B 멀티모달 모델에서 1M 컨텍스트 attention 연산 28.4x 감소 — Sparse Attention (MSA) 공개

MiniMax가 109B 파라미터 멀티모달 모델에서 GQA 기반 blockwise sparse attention (MSA)을 도입, 1M 컨텍스트에서 attention 연산량을 28.4x 줄이고 prefill 14.2x, decoding 7.6x 속도 향상을 달성했습니다. Index Branch가 GQA 그룹별로 KV 블록의 Top-k를 선택하고 Main Branch가 해당 블록에만 attention을 수행하는 구조로, exp-free Top-k 선택과 KV-outer sparse attention 커널을 함께 설계해 H800 GPU에서 실질적 가속을 얻었습니다. 코드와 모델(MiniMax-M3)은 모두 공개되었습니다.

MiniMax가 109B 멀티모달 모델에서 1M 컨텍스트 attention 연산을 28.4x 줄이는 blockwise sparse attention (MSA)을 공개했습니다.

핵심 결론

모델 — 109B 파라미터, native 멀티모달 학습, GQA 기반.
성능 — GQA 대비 attention 연산량 28.4x 감소 (1M context), prefill 14.2x, decoding 7.6x wall-clock speedup (H800).
정확도 — GQA와 동등 수준 (on par).

방법

구조 — Index Branch가 각 GQA 그룹별로 KV 블록의 Top-k를 선택, Main Branch가 선택된 블록에만 block-sparse attention 수행.
커널 — exp-free Top-k 선택과 KV-outer sparse attention으로 tensor-core 활용도를 높여 실질적 속도 향상.
설계 원칙 — 단순성과 확장성에 초점, 다양한 GPU에서 효율적 배포 가능.

한계·조건

환경 — 벤치마크는 H800 GPU 기준, 다른 GPU에서의 성능은 검증되지 않음.
공개 — Inference kernel (GitHub) 및 모델 (Hugging Face) 모두 공개.

편집자 한 줄

1M 컨텍스트에서 28.4x 연산 감소는 인상적이지만, Index Branch의 오버헤드와 sparse ratio에 따른 정확도 트레이드오프는 실제 사용 시 확인이 필요합니다.

#sparse-attention
#long-context
#minimax
#gqa
#multimodal

MiniMax

원문 보기 →

MiniMax, 109B 멀티모달 모델에서 1M 컨텍스트 attention 연산 28.4x 감소 — Sparse Attention (MSA) 공개

핵심 결론

방법

한계·조건

Comments