← Back to feed
Papers·5일 전

NVIDIA, 550B MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra 공개 — 1M 컨텍스트, 6x 추론 처리량

NVIDIA, 550B MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra 공개 — 1M 컨텍스트, 6x 추론 처리량

NVIDIA가 550B total / 55B active 파라미터의 MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra를 발표했습니다. 20T 토큰 사전학습 후 1M 컨텍스트로 확장했으며, SFT·RL·MOPD로 후처리했습니다. 공개 LLM 대비 최대 6배 높은 추론 처리량을 동등한 정확도로 달성해, 장기 실행 에이전트 태스크에 적합합니다. LatentMoE, Multi Token Prediction, NVFP4 양자화, 멀티 환경 RLVR 등 여러 기술이 적용되었습니다. Base, post-trained, quantized 체크포인트와 학습 데이터·레시피를 HuggingFace에 공개했습니다.

NVIDIA가 550B 파라미터 MoE Hybrid Mamba-Attention 모델 Nemotron 3 Ultra를 공개했습니다. 1M 컨텍스트와 6배 추론 처리량이 핵심입니다.

핵심 결론

  • 모델550B total / 55B active, MoE Hybrid Mamba-Attention 구조.
  • 성능공개 LLM 대비 최대 6x 높은 추론 처리량, 동등한 정확도.
  • 컨텍스트1M 토큰 컨텍스트 지원, 장기 에이전트 태스크에 최적화.

방법

  • 아키텍처LatentMoE (게이팅 경량화), Mamba + Attention 하이브리드, Multi Token Prediction 헤드.
  • 학습20T 토큰 사전학습 후 1M 컨텍스트 확장, SFT·RL·MOPD (Multi-teacher On-Policy Distillation) 로 후처리.
  • 추론NVFP4 (4-bit floating point) 양자화로 메모리·대역폭 절감, reasoning budget control 로 토큰 효율화.

한계·조건

  • 환경추론 처리량 비교는 NVIDIA GPU 기반, 타사 하드웨어에서의 성능은 별도 측정 필요.
  • 공개Base, post-trained, quantized 체크포인트 + 학습 데이터·레시피 모두 HuggingFace에 공개.

편집자 한 줄

MoE + Mamba + Attention 조합에 MOPD 라는 독특한 증류 기법을 쓴 점이 흥미롭습니다. 1M 컨텍스트를 실제로 얼마나 효율적으로 활용할 수 있을지 후속 벤치마크가 기대되네요.

  • #nvidia
  • #nemotron
  • #moe
  • #mamba
  • #attention
  • #long-context
NVIDIA
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —