Papers·1개월 전

NVIDIA, 550B MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra 공개 — 1M 컨텍스트, 6x 추론 처리량

NVIDIA가 550B total / 55B active 파라미터의 MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra를 발표했습니다. 20T 토큰 사전학습 후 1M 컨텍스트로 확장했으며, SFT·RL·MOPD로 후처리했습니다. 공개 LLM 대비 최대 6배 높은 추론 처리량을 동등한 정확도로 달성해, 장기 실행 에이전트 태스크에 적합합니다. LatentMoE, Multi Token Prediction, NVFP4 양자화, 멀티 환경 RLVR 등 여러 기술이 적용되었습니다. Base, post-trained, quantized 체크포인트와 학습 데이터·레시피를 HuggingFace에 공개했습니다.

NVIDIA가 550B 파라미터 MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra를 공개했습니다. 1M 컨텍스트와 6배 추론 처리량이 핵심입니다.

핵심 결론

모델 — 550B total / 55B active, MoE Hybrid Mamba-Attention 구조.
성능 — 공개 LLM 대비 최대 6x 높은 추론 처리량, 동등한 정확도.
컨텍스트 — 1M 토큰 컨텍스트 지원, 장기 에이전트 태스크에 최적화.

방법

아키텍처 — LatentMoE (게이팅 경량화), Mamba + Attention 하이브리드, Multi Token Prediction 헤드.
학습 — 20T 토큰 사전학습 후 1M 컨텍스트 확장, SFT·RL·MOPD (Multi-teacher On-Policy Distillation) 로 후처리.
추론 — NVFP4 (4-bit floating point) 양자화로 메모리·대역폭 절감, reasoning budget control 로 토큰 효율화.

한계·조건

환경 — 추론 처리량 비교는 NVIDIA GPU 기반, 타사 하드웨어에서의 성능은 별도 측정 필요.
공개 — Base, post-trained, quantized 체크포인트 + 학습 데이터·레시피 모두 HuggingFace에 공개.

편집자 한 줄

MoE + Mamba + Attention 조합에 MOPD 라는 독특한 증류 기법을 쓴 점이 흥미롭습니다. 1M 컨텍스트를 실제로 얼마나 효율적으로 활용할 수 있을지 후속 벤치마크가 기대되네요.

#nvidia
#nemotron
#moe
#mamba
#attention
#long-context

NVIDIA

원문 보기 →

NVIDIA, 550B MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra 공개 — 1M 컨텍스트, 6x 추론 처리량

핵심 결론

방법

한계·조건

Comments