رفتن به محتوای اصلی
دیدگاه کلود | ارائه‌کننده سرورهای ابری و اختصاصی
اجرای مدل‌های Nemotron 3 با وزن باز روی GPU Droplet

اجرای مدل‌های Nemotron 3 با وزن باز روی GPU Droplet

جدیدترین مدل‌های خود از خانواده Nemotron، یعنی Nemotron 3 را معرفی کرده است. این خانواده شامل سه مدل Nano، Super و Ultra است که به ترتیب دارای ۳۰، ۴۹ و ۲۵۳ میلیارد پارامتر بوده و طول زمینه پردازشی تا ۱ میلیون توکن را پشتیبانی می‌کنند. مدل Nano در دسامبر ۲۰۲۵ منتشر شده و دو مدل Super و Ultra برای انتشار در ۲۰۲۶ برنامه‌ریزی شده‌اند.

مقدمه

NVIDIA جدیدترین مدل‌های خود از خانواده Nemotron، یعنی Nemotron 3 را معرفی کرده است. این خانواده شامل سه مدل Nano، Super و Ultra است که به ترتیب دارای ۳۰، ۴۹ و ۲۵۳ میلیارد پارامتر بوده و طول زمینه پردازشی تا ۱ میلیون توکن را پشتیبانی می‌کنند. مدل Nano در دسامبر ۲۰۲۵ منتشر شده و دو مدل Super و Ultra برای انتشار در ۲۰۲۶ برنامه‌ریزی شده‌اند.

تمامی مدل‌ها تحت مجوز باز NVIDIA عرضه شده‌اند، به این معنا که امکان استفاده تجاری، تغییر و کنترل کامل روی خروجی‌ها را خواهید داشت. وزن‌ها و داده‌های آموزشی مدل نیز به صورت عمومی در Hugging Face در دسترس هستند. در این آموزش، نحوه پیاده‌سازی مدل Nano روی یک GPU Droplet در DigitalOcean توضیح داده می‌شود.


نکات کلیدی

  • Nemotron 3 شامل سه مدل Nano (۳۰B)، Super (۴۹B) و Ultra (۲۵۳B) است.

  • تا ژانویه ۲۰۲۶، تنها مدل Nano در دسترس است و مدل‌های دیگر در ماه‌های آینده منتشر خواهند شد.

  • تمام مدل‌ها دارای وزن باز هستند و امکان استفاده و تغییر تجاری دارند.

  • معماری مدل‌ها بهینه‌سازی‌هایی برای افزایش سرعت تولید توکن (throughput) دارند.


مروری بر مدل‌ها

مدل‌های Nemotron 3 از معماری Mixture of Experts و ترکیبی از Mamba-Transformer استفاده می‌کنند تا سرعت تولید توکن افزایش یابد. به جای لایه‌های سنگین self-attention، از لایه‌های Mamba-2 و MoE استفاده می‌شود که منابع کمتری مصرف کرده و سریع‌تر هستند، مخصوصاً برای ورودی‌های طولانی. در موارد لازم، لایه‌های attention برای حفظ دقت اضافه شده‌اند.

  • Nano: کوچک‌ترین مدل، بهینه برای کارهای اقتصادی و دقیق. عملکرد نزدیک به Qwen3-30B و GPT-OSS-20B دارد.

  • Super: مناسب برای وظایف چندعاملی با دقت بالا.

  • Ultra: حداکثر دقت و قدرت استدلال را ارائه می‌دهد.

مدل Nano شامل ۲۳ لایه Mamba-2 و MoE و ۶ لایه attention است. هر لایه MoE شامل ۱۲۸ expert به علاوه یک expert مشترک است و فقط ۵ expert فعال هستند، یعنی ۳.۵ میلیارد از ۳۰ میلیارد پارامتر فعال هستند.


مراحل اجرای مدل Nano روی GPU Droplet

مرحله ۱ — ساخت GPU Droplet

ابتدا در حساب DigitalOcean خود وارد شوید و یک GPU Droplet بسازید.

  • تصویر (Image) AI/ML-Ready را انتخاب کنید.

  • GPU NVIDIA H100 را انتخاب کنید.

  • کلید SSH اضافه یا انتخاب کنید و Droplet را ایجاد کنید.


مرحله ۲ — اتصال به GPU Droplet

پس از ساخت Droplet، با SSH به سرور متصل شوید:

 
ssh root@your_server_ip

در صورت دریافت پیام زیر، تایپ کنید yes و Enter بزنید:

 
The authenticity of host 'your_server_ip' can't be established... Are you sure you want to continue connecting (yes/no/[fingerprint])?

مرحله ۳ — نصب Python و vLLM

در سرور، Python را نصب کنید:

 
sudo apt install python3 python3-pip

سپس vLLM را نصب کنید:

 
pip install vllm

بعد، custom parser مدل Nano را دانلود کنید:

 
wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16/resolve/main/nano_v3_reasoning_parser.py

این parser امکان پردازش قابلیت استدلال و فراخوانی ابزارها توسط vLLM را فراهم می‌کند.


مرحله ۴ — راه‌اندازی مدل

برای اجرای مدل Nano:

 
vllm serve --model nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \ --max-num-seqs 8 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --port 8000 \ --trust-remote-code \ --reasoning-parser-plugin nano_v3_reasoning_parser.py \ --reasoning-parser nano_v3

پارامترها:

  • max-num-seqs: تعداد پاسخ‌هایی که همزمان پردازش می‌شوند.

  • tensor-parallel-size: تعداد GPU‌ها برای موازی‌سازی.

  • max-model-len: حداکثر طول توکن.

  • trust-remote-code: مورد نیاز برای پردازش سفارشی Nemotron.

پس از بارگذاری مدل، می‌توانید با Python درخواست‌های inference ارسال کنید:

 
import requests url = "http://your_server_ip:8000/v1/completions" data = { "model": "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16", "messages": [{"role": "user", "content": "What is the capital of France?"}], "max_tokens": 1000 } response = requests.post(url, json=data) message = response.json()['choices'][0]['message']['content'] print(message)

خروجی:

 
The capital of France is Paris.

سوالات متداول (FAQ)

چه سخت‌افزاری برای اجرای Nemotron 3 Nano نیاز است؟
حداقل ۶۰ گیگابایت VRAM، مانند A100 ۸۰GB یا H100. نسخه quantized ممکن است روی GPU‌های با حافظه کمتر هم اجرا شود.

آیا می‌توان مدل را روی داده خود آموزش داد؟
بله. مجوز باز NVIDIA اجازه استفاده تجاری، تغییر و fine-tune را می‌دهد.

تفاوت معماری MoE با ترنسفورمر سنتی چیست؟
فقط ۵ expert از ۱۲۸ expert برای هر توکن فعال می‌شوند، در نتیجه مصرف منابع بسیار کمتر است.


جمع‌بندی

خانواده Nemotron 3 مدل‌هایی کارآمد و سریع با دقت بالا ارائه می‌دهد. مدل Nano در ژانویه ۲۰۲۶ در دسترس است و دو مدل بزرگ‌تر در ماه‌های آینده منتشر خواهند شد.