مقدمه
NVIDIA جدیدترین مدلهای خود از خانواده Nemotron، یعنی Nemotron 3 را معرفی کرده است. این خانواده شامل سه مدل Nano، Super و Ultra است که به ترتیب دارای ۳۰، ۴۹ و ۲۵۳ میلیارد پارامتر بوده و طول زمینه پردازشی تا ۱ میلیون توکن را پشتیبانی میکنند. مدل Nano در دسامبر ۲۰۲۵ منتشر شده و دو مدل Super و Ultra برای انتشار در ۲۰۲۶ برنامهریزی شدهاند.
تمامی مدلها تحت مجوز باز NVIDIA عرضه شدهاند، به این معنا که امکان استفاده تجاری، تغییر و کنترل کامل روی خروجیها را خواهید داشت. وزنها و دادههای آموزشی مدل نیز به صورت عمومی در Hugging Face در دسترس هستند. در این آموزش، نحوه پیادهسازی مدل Nano روی یک GPU Droplet در DigitalOcean توضیح داده میشود.
نکات کلیدی
-
Nemotron 3 شامل سه مدل Nano (۳۰B)، Super (۴۹B) و Ultra (۲۵۳B) است.
-
تا ژانویه ۲۰۲۶، تنها مدل Nano در دسترس است و مدلهای دیگر در ماههای آینده منتشر خواهند شد.
-
تمام مدلها دارای وزن باز هستند و امکان استفاده و تغییر تجاری دارند.
-
معماری مدلها بهینهسازیهایی برای افزایش سرعت تولید توکن (throughput) دارند.
مروری بر مدلها
مدلهای Nemotron 3 از معماری Mixture of Experts و ترکیبی از Mamba-Transformer استفاده میکنند تا سرعت تولید توکن افزایش یابد. به جای لایههای سنگین self-attention، از لایههای Mamba-2 و MoE استفاده میشود که منابع کمتری مصرف کرده و سریعتر هستند، مخصوصاً برای ورودیهای طولانی. در موارد لازم، لایههای attention برای حفظ دقت اضافه شدهاند.
-
Nano: کوچکترین مدل، بهینه برای کارهای اقتصادی و دقیق. عملکرد نزدیک به Qwen3-30B و GPT-OSS-20B دارد.
-
Super: مناسب برای وظایف چندعاملی با دقت بالا.
-
Ultra: حداکثر دقت و قدرت استدلال را ارائه میدهد.
مدل Nano شامل ۲۳ لایه Mamba-2 و MoE و ۶ لایه attention است. هر لایه MoE شامل ۱۲۸ expert به علاوه یک expert مشترک است و فقط ۵ expert فعال هستند، یعنی ۳.۵ میلیارد از ۳۰ میلیارد پارامتر فعال هستند.
مراحل اجرای مدل Nano روی GPU Droplet
مرحله ۱ — ساخت GPU Droplet
ابتدا در حساب DigitalOcean خود وارد شوید و یک GPU Droplet بسازید.
-
تصویر (Image) AI/ML-Ready را انتخاب کنید.
-
GPU NVIDIA H100 را انتخاب کنید.
-
کلید SSH اضافه یا انتخاب کنید و Droplet را ایجاد کنید.
مرحله ۲ — اتصال به GPU Droplet
پس از ساخت Droplet، با SSH به سرور متصل شوید:
در صورت دریافت پیام زیر، تایپ کنید yes و Enter بزنید:
مرحله ۳ — نصب Python و vLLM
در سرور، Python را نصب کنید:
سپس vLLM را نصب کنید:
بعد، custom parser مدل Nano را دانلود کنید:
این parser امکان پردازش قابلیت استدلال و فراخوانی ابزارها توسط vLLM را فراهم میکند.
مرحله ۴ — راهاندازی مدل
برای اجرای مدل Nano:
پارامترها:
-
max-num-seqs: تعداد پاسخهایی که همزمان پردازش میشوند.
-
tensor-parallel-size: تعداد GPUها برای موازیسازی.
-
max-model-len: حداکثر طول توکن.
-
trust-remote-code: مورد نیاز برای پردازش سفارشی Nemotron.
پس از بارگذاری مدل، میتوانید با Python درخواستهای inference ارسال کنید:
خروجی:
سوالات متداول (FAQ)
چه سختافزاری برای اجرای Nemotron 3 Nano نیاز است؟
حداقل ۶۰ گیگابایت VRAM، مانند A100 ۸۰GB یا H100. نسخه quantized ممکن است روی GPUهای با حافظه کمتر هم اجرا شود.
آیا میتوان مدل را روی داده خود آموزش داد؟
بله. مجوز باز NVIDIA اجازه استفاده تجاری، تغییر و fine-tune را میدهد.
تفاوت معماری MoE با ترنسفورمر سنتی چیست؟
فقط ۵ expert از ۱۲۸ expert برای هر توکن فعال میشوند، در نتیجه مصرف منابع بسیار کمتر است.
جمعبندی
خانواده Nemotron 3 مدلهایی کارآمد و سریع با دقت بالا ارائه میدهد. مدل Nano در ژانویه ۲۰۲۶ در دسترس است و دو مدل بزرگتر در ماههای آینده منتشر خواهند شد.

