← Back to feed
Papers·5일 전

NVIDIA Nemotron 3 Nano Omni — 음성·텍스트·이미지·비디오 네이티브 지원, 문서 이해·에이전트 태스크에서 개선

NVIDIA Nemotron 3 Nano Omni — 음성·텍스트·이미지·비디오 네이티브 지원, 문서 이해·에이전트 태스크에서 개선

NVIDIA가 Nemotron 3 Nano Omni를 공개했습니다. Nemotron Nano V2 VL 대비 모든 모달리티에서 정확도가 개선되었으며, 특히 문서 이해, 긴 오디오-비디오 이해, 에이전트 컴퓨터 사용 태스크에서 두드러진 결과를 냈다고 합니다. 30B 파라미터에 3B 활성화(A3B)라는 효율적인 백본 위에 멀티모달 토큰 축소 기법을 적용해 추론 지연 시간을 낮추고 처리량을 높인 점이 특징입니다. BF16, FP8, FP4 체크포인트와 일부 학습 데이터·코드도 함께 공개했네요.

NVIDIA

Comments

— 첫 댓글을 남겨보세요 —