مدل‌های اوپن سورس — کدوم رو انتخاب کنی؟

یه قدم به عقب: چی یاد گرفتیم تا الان؟

تو اپیزود قبلی با Prompt Engineering آشنا شدیم و یاد گرفتیم چطور با یه LLM حرف بزنیم که بهترین نتیجه رو بگیریم. فهمیدیم که نوشتن یه prompt خوب، خودش یه مهارته. حالا وقتشه بریم سراغ یه سوال اساسی‌تر: کدوم مدل رو استفاده کنیم؟

تا الان بیشتر با مدل‌های بسته (Closed-source) مثل ChatGPT و Claude کار کردیم. ولی یه دنیای بزرگ از مدل‌های اوپن‌سورس وجود داره که می‌تونی رایگان دانلود کنی، روی سیستم خودت اجرا کنی، و حتی تغییرشون بدی. بیا باهاشون آشنا بشیم.

اوپن‌سورس یعنی چی؟ چرا مهمه؟

وقتی می‌گیم یه مدل اوپن‌سورسه، یعنی وزن‌های مدل (Model Weights) — یعنی همون اعدادی که مغز مدل رو تشکیل می‌دن — به‌صورت عمومی منتشر شدن. تو می‌تونی این مدل رو دانلود کنی و روی کامپیوتر خودت اجرا کنی. نیازی به اینترنت نداری، نیازی به پرداخت ماهانه نداری، و مهم‌تر از همه: داده‌هات پیش خودت می‌مونه.

فکر کن مثل تفاوت اجاره خونه و خرید خونه‌ست. وقتی از ChatGPT استفاده می‌کنی، داری خونه اجاره می‌کنی — راحته، ولی صاحبخونه هر وقت بخواد می‌تونه اجاره رو بالا ببره یا قوانین رو عوض کنه. ولی وقتی یه مدل اوپن‌سورس دانلود می‌کنی، صاحب خونه‌ای. می‌تونی هر تغییری بدی.

مزایای اوپن‌سورس

حریم خصوصی: داده‌هات به هیچ سروری ارسال نمی‌شه
هزینه: بعد از تهیه سخت‌افزار، هزینه API نداری
شخصی‌سازی: می‌تونی مدل رو Fine-tune کنی (اپیزود ۶ مفصل توضیح می‌دیم)
کنترل: هیچ‌کس نمی‌تونه دسترسیت رو قطع کنه
یادگیری: می‌تونی داخل مدل رو ببینی و بفهمی چطور کار می‌کنه

معایب اوپن‌سورس

سخت‌افزار: برای مدل‌های بزرگ به GPU قوی نیاز داری
کیفیت: معمولاً یه قدم از مدل‌های تجاری بزرگ عقب‌ترن
پشتیبانی: اگه مشکلی پیش بیاد، خودت باید حلش کنی

خانواده Llama — غول Meta

بیا از معروف‌ترینش شروع کنیم. Llama (مخفف Large Language Model Meta AI) توسط Meta (همون Facebook قدیم) ساخته شده و احتمالاً شناخته‌شده‌ترین خانواده مدل اوپن‌سورسه.

تاریخچه مختصر

Llama 1 (فوریه ۲۰۲۳): اولین نسخه. انقلابی بود چون نشون داد مدل‌های کوچیک‌تر هم می‌تونن قوی باشن.
Llama 2 (جولای ۲۰۲۳): بهبود بزرگ در کیفیت. اولین بار لایسنس تجاری هم داد.
Llama 3 (آوریل ۲۰۲۴): پرش کیفی بزرگ. نسخه ۷۰B واقعاً رقیب مدل‌های بسته شد.
Llama 4 (۲۰۲۵): آخرین نسل با معماری MoE (Mixture of Experts) — یعنی چندین متخصص کوچیک به‌جای یه مدل بزرگ.

نقاط قوت Llama

جامعه بزرگ: هزاران نفر باهاش کار می‌کنن، پس منابع یادگیری زیاده
سازگاری عالی: تقریباً هر ابزاری از Llama پشتیبانی می‌کنه
لایسنس نسبتاً آزاد: می‌تونی تجاری استفاده کنی
سایزهای مختلف: از ۱B تا ۴۰۵B — برای هر سخت‌افزاری یه گزینه هست

نقاط ضعف

پشتیبانی از زبان فارسی: متوسط. بهتر از خیلی‌ها ولی عالی نیست.
مدل‌های بزرگش واقعاً سنگینن

خانواده Qwen — ستاره چینی که فارسی هم بلده

حالا بیا بریم سراغ یه غافلگیری. Qwen (تلفظ: چِوِن) توسط Alibaba Cloud ساخته شده و شاید باورت نشه ولی یکی از بهترین گزینه‌ها برای زبان فارسیه!

چرا؟ چون Alibaba روی داده‌های چندزبانه خیلی سرمایه‌گذاری کرده. Qwen روی بیش از ۲۰ زبان آموزش دیده و زبان‌های خاورمیانه‌ای و آسیایی رو خیلی بهتر از بقیه مدل‌ها می‌فهمه.

نسخه‌های مهم

Qwen 2.5: نسل قبلی که خیلی محبوب شد
Qwen 3 (۲۰۲۵): آخرین نسل با قابلیت Thinking Mode — یعنی مدل می‌تونه قبل از جواب دادن، فکر کنه
Qwen-VL: نسخه‌ای که تصاویر رو هم می‌فهمه (Multimodal)
Qwen-Coder: نسخه مخصوص برنامه‌نویسی

چرا Qwen برای فارسی خوبه؟

یه تست ساده بکن: یه متن فارسی نسبتاً پیچیده بده به Llama 3 و Qwen 3 با سایز مشابه. تفاوت رو خودت می‌بینی. Qwen جملات فارسی طبیعی‌تری تولید می‌کنه، اشتباهات دستوری کمتری داره، و حتی ضرب‌المثل‌های فارسی رو بهتر می‌فهمه.

دلیلش اینه که Alibaba به بازار خاورمیانه و ایران علاقه تجاری داره و داده‌های فارسی بیشتری توی آموزش مدل استفاده کرده.

سایزهای موجود

Qwen 3 در سایزهای ۰.۶B، ۱.۷B، ۴B، ۸B، ۱۴B، ۳۲B و ۲۳۵B عرضه شده. نسخه ۸B و ۱۴B بهترین نسبت کیفیت به سخت‌افزار رو دارن.

DeepSeek — قدرت استدلال

DeepSeek یه شرکت چینی دیگه‌ست که با رویکرد متفاوتی وارد بازی شد. به‌جای اینکه فقط روی بزرگ‌تر کردن مدل تمرکز کنه، روی بهتر فکر کردن تمرکز کرد.

DeepSeek-R1: مدلی که فکر می‌کنه

DeepSeek-R1 یه مدل Reasoning (استدلال‌گر) هست. یعنی وقتی یه سوال ریاضی یا منطقی بهش بدی، قبل از جواب دادن، مرحله‌به‌مرحله فکر می‌کنه — دقیقاً مثل یه دانش‌آموز خوب که جواب رو مرحله‌به‌مرحله می‌نویسه.

💡 نکته: اصطلاح Chain-of-Thought (زنجیره تفکر) به این قابلیت گفته می‌شه. مدل به‌جای اینکه مستقیم جواب بده، مراحل فکر کردنش رو هم نشون می‌ده. این باعث می‌شه جواب‌های دقیق‌تری بده، مخصوصاً تو مسائل ریاضی و کدنویسی.

DeepSeek-V3: مدل عمومی

کنار R1، مدل DeepSeek-V3 هم هست که یه مدل عمومی قویه. نکته جالبش اینه که با بودجه خیلی کمتر از رقبا آموزش دیده — یعنی تیم DeepSeek از نظر بهینه‌سازی خیلی باهوشه.

معماری MoE

DeepSeek از معماری Mixture of Experts استفاده می‌کنه. تصور کن به‌جای یه دکتر عمومی که همه‌چیز بلده، یه تیم پزشکی داری که هر کدوم تو یه حوزه متخصصن. وقتی سوال ریاضی می‌پرسی، متخصص ریاضی فعال می‌شه. وقتی سوال ادبی می‌پرسی، متخصص ادبیات. این باعث می‌شه مدل هم سریع‌تر باشه و هم دقیق‌تر.

چطور مدل مناسب رو انتخاب کنیم؟

خب، حالا که سه خانواده اصلی رو شناختی، بیا یه فریم‌ورک تصمیم‌گیری بسازیم.

۱. سایز مدل (Model Size)

مدل‌ها بر اساس تعداد پارامترهاشون دسته‌بندی می‌شن. پارامتر یعنی اون اعدادی که مدل یاد گرفته. هر چی بیشتر باشه، مدل باهوش‌تره ولی سنگین‌تر هم هست.

۱-۳B: مناسب گوشی موبایل یا تست سریع. کیفیت پایین.
۷-۸B: نقطه شروع خوب. با یه GPU معمولی قابل اجراست.
۱۳-۱۴B: تعادل خوب بین کیفیت و سرعت.
۳۰-۷۰B: کیفیت بالا. به GPU حرفه‌ای نیاز داره.
بالای ۱۰۰B: نزدیک به مدل‌های بسته. به چند GPU نیاز داره.

۲. Quantization — فشرده‌سازی هوشمند

یه ترفند مهم هست به اسم Quantization (کوانتیزاسیون یا فشرده‌سازی). فرض کن یه عکس ۱۰ مگابایتی داری. می‌تونی فشرده‌ش کنی و ۲ مگ بشه، بدون اینکه کیفیتش خیلی بیاد پایین. با مدل‌ها هم همین کار رو می‌شه کرد.

رایج‌ترین فرمت‌ها:

FP16: نصف حجم اصلی، تقریباً بدون افت کیفیت
INT8 (Q8): یک‌چهارم حجم اصلی، افت کیفیت بسیار کم
INT4 (Q4): یک‌هشتم حجم اصلی، افت کیفیت محسوس ولی قابل قبول

⚡ قاعده سرانگشتی: یه مدل ۱۴B با Q4 معمولاً بهتر از یه مدل ۷B با FP16 عمل می‌کنه. پس اگه GPU محدودی داری، مدل بزرگ‌تر با Quantization بیشتر رو انتخاب کن.

۳. کاربرد (Use Case)

چت فارسی عمومی: Qwen 3 (8B یا 14B)
کدنویسی: Qwen-Coder یا DeepSeek-Coder
استدلال و ریاضی: DeepSeek-R1 یا Qwen 3 (با Thinking Mode)
کار عمومی انگلیسی: Llama 3 (8B یا 70B)
پروژه تجاری: به لایسنس دقت کن — Llama و Qwen لایسنس تجاری دارن

۴. سخت‌افزار موجود

# یه محاسبه سریع برای تخمین VRAM مورد نیاز:
# FP16: تعداد پارامتر × ۲ بایت
# INT8: تعداد پارامتر × ۱ بایت  
# INT4: تعداد پارامتر × ۰.۵ بایت

# مثال: مدل ۱۴B با INT4
# ۱۴ × ۰.۵ = ۷ گیگابایت VRAM
# یعنی با یه RTX 3060 (12GB) راحت اجرا می‌شه

اوپن‌سورس در مقابل بسته — کدوم بهتره؟

جواب کوتاه: بستگی داره. ولی بیا مقایسه دقیق‌تری بکنیم.

کی از مدل بسته (مثل ChatGPT, Claude) استفاده کن:

وقتی بالاترین کیفیت ممکن رو می‌خوای
وقتی بودجه سخت‌افزار نداری
وقتی پروژه‌ت کوچیکه و هزینه API ناچیزه
وقتی نیاز به Multimodal (تصویر + متن) پیشرفته داری

کی از مدل اوپن‌سورس استفاده کن:

وقتی حریم خصوصی داده‌ها مهمه (مثلاً داده‌های پزشکی)
وقتی حجم درخواست‌ها زیاده و هزینه API سنگین می‌شه
وقتی نیاز به شخصی‌سازی (Fine-tuning) داری
وقتی می‌خوای آفلاین کار کنه
وقتی می‌خوای یاد بگیری مدل‌ها چطور کار می‌کنن

ابزارهای اجرای مدل اوپن‌سورس

حالا که مدل رو انتخاب کردی، باید اجراش کنی. چند ابزار مهم:

Ollama — ساده‌ترین راه

Ollama مثل Docker برای مدل‌هاست. یه دستور می‌زنی، مدل دانلود و اجرا می‌شه.

# نصب Ollama
curl -fsSL https://ollama.com/install.sh | sh

# اجرای Qwen 3 8B
ollama run qwen3:8b

# اجرای Llama 3
ollama run llama3.1:8b

# لیست مدل‌های دانلود شده
ollama list

LM Studio — با رابط گرافیکی

اگه ترمینال دوست نداری، LM Studio یه رابط گرافیکی خوشگل داره. دانلود کن، مدل رو انتخاب کن، و شروع به چت کن. ساده‌تر از این نمی‌شه.

vLLM — برای پروداکشن

وقتی می‌خوای مدل رو به‌عنوان API سرو کنی (مثلاً برای یه اپلیکیشن)، vLLM بهترین انتخابه. سریعه، بهینه‌ست، و از batching پشتیبانی می‌کنه.

# اجرای مدل به‌عنوان API
vllm serve Qwen/Qwen3-8B --port 8000

# حالا می‌تونی مثل OpenAI API باهاش حرف بزنی
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "Qwen/Qwen3-8B", "messages": [{"role": "user", "content": "سلام!"}]}'

Hugging Face — بازار مدل‌ها

Hugging Face رو می‌تونی مثل GitHub برای مدل‌های هوش مصنوعی در نظر بگیری. تقریباً همه مدل‌های اوپن‌سورس اونجا منتشر می‌شن. یه حساب بساز و شروع کن به گشتن.

وقتی می‌ری صفحه یه مدل، این اطلاعات رو ببین:

Model Card: توضیحات مدل، نحوه استفاده، محدودیت‌ها
Files: فایل‌های وزن مدل
Community: بحث‌ها و سوالات کاربران
Spaces: دموهای آنلاین — می‌تونی بدون دانلود تست کنی

🎯 تمرین عملی: برو به huggingface.co و مدل Qwen/Qwen3-8B رو سرچ کن. Model Card رو بخون. بعد Ollama نصب کن و مدل رو اجرا کن. یه مکالمه فارسی باهاش داشته باش و کیفیتش رو با ChatGPT مقایسه کن.

جمع‌بندی

تو این اپیزود یاد گرفتی:

تفاوت مدل‌های اوپن‌سورس و بسته
سه خانواده اصلی: Llama (عمومی و محبوب)، Qwen (عالی برای فارسی)، DeepSeek (قوی در استدلال)
چطور بر اساس سایز، کاربرد، و سخت‌افزار انتخاب کنی
Quantization چیه و چرا مهمه
ابزارهای Ollama، LM Studio، و vLLM

اپیزود بعدی: RAG — وقتی LLM حافظه پیدا می‌کنه

یه مشکل بزرگ با همه این مدل‌ها هست: اطلاعاتشون قدیمیه و از داده‌های تو خبر ندارن. اپیزود بعدی یاد می‌گیریم چطور با تکنیک RAG، به مدل حافظه اختصاصی بدیم تا بتونه از اسناد و داده‌های خودت استفاده کنه. این تکنیک تو دنیای واقعی بیشتر از هر چیز دیگه‌ای استفاده می‌شه!