یه قدم به عقب: چی یاد گرفتیم تا الان؟
تو اپیزود قبلی با Prompt Engineering آشنا شدیم و یاد گرفتیم چطور با یه LLM حرف بزنیم که بهترین نتیجه رو بگیریم. فهمیدیم که نوشتن یه prompt خوب، خودش یه مهارته. حالا وقتشه بریم سراغ یه سوال اساسیتر: کدوم مدل رو استفاده کنیم؟
تا الان بیشتر با مدلهای بسته (Closed-source) مثل ChatGPT و Claude کار کردیم. ولی یه دنیای بزرگ از مدلهای اوپنسورس وجود داره که میتونی رایگان دانلود کنی، روی سیستم خودت اجرا کنی، و حتی تغییرشون بدی. بیا باهاشون آشنا بشیم.
اوپنسورس یعنی چی؟ چرا مهمه؟
وقتی میگیم یه مدل اوپنسورسه، یعنی وزنهای مدل (Model Weights) — یعنی همون اعدادی که مغز مدل رو تشکیل میدن — بهصورت عمومی منتشر شدن. تو میتونی این مدل رو دانلود کنی و روی کامپیوتر خودت اجرا کنی. نیازی به اینترنت نداری، نیازی به پرداخت ماهانه نداری، و مهمتر از همه: دادههات پیش خودت میمونه.
فکر کن مثل تفاوت اجاره خونه و خرید خونهست. وقتی از ChatGPT استفاده میکنی، داری خونه اجاره میکنی — راحته، ولی صاحبخونه هر وقت بخواد میتونه اجاره رو بالا ببره یا قوانین رو عوض کنه. ولی وقتی یه مدل اوپنسورس دانلود میکنی، صاحب خونهای. میتونی هر تغییری بدی.
مزایای اوپنسورس
- حریم خصوصی: دادههات به هیچ سروری ارسال نمیشه
- هزینه: بعد از تهیه سختافزار، هزینه API نداری
- شخصیسازی: میتونی مدل رو Fine-tune کنی (اپیزود ۶ مفصل توضیح میدیم)
- کنترل: هیچکس نمیتونه دسترسیت رو قطع کنه
- یادگیری: میتونی داخل مدل رو ببینی و بفهمی چطور کار میکنه
معایب اوپنسورس
- سختافزار: برای مدلهای بزرگ به GPU قوی نیاز داری
- کیفیت: معمولاً یه قدم از مدلهای تجاری بزرگ عقبترن
- پشتیبانی: اگه مشکلی پیش بیاد، خودت باید حلش کنی
خانواده Llama — غول Meta
بیا از معروفترینش شروع کنیم. Llama (مخفف Large Language Model Meta AI) توسط Meta (همون Facebook قدیم) ساخته شده و احتمالاً شناختهشدهترین خانواده مدل اوپنسورسه.
تاریخچه مختصر
- Llama 1 (فوریه ۲۰۲۳): اولین نسخه. انقلابی بود چون نشون داد مدلهای کوچیکتر هم میتونن قوی باشن.
- Llama 2 (جولای ۲۰۲۳): بهبود بزرگ در کیفیت. اولین بار لایسنس تجاری هم داد.
- Llama 3 (آوریل ۲۰۲۴): پرش کیفی بزرگ. نسخه ۷۰B واقعاً رقیب مدلهای بسته شد.
- Llama 4 (۲۰۲۵): آخرین نسل با معماری MoE (Mixture of Experts) — یعنی چندین متخصص کوچیک بهجای یه مدل بزرگ.
نقاط قوت Llama
- جامعه بزرگ: هزاران نفر باهاش کار میکنن، پس منابع یادگیری زیاده
- سازگاری عالی: تقریباً هر ابزاری از Llama پشتیبانی میکنه
- لایسنس نسبتاً آزاد: میتونی تجاری استفاده کنی
- سایزهای مختلف: از ۱B تا ۴۰۵B — برای هر سختافزاری یه گزینه هست
نقاط ضعف
- پشتیبانی از زبان فارسی: متوسط. بهتر از خیلیها ولی عالی نیست.
- مدلهای بزرگش واقعاً سنگینن
خانواده Qwen — ستاره چینی که فارسی هم بلده
حالا بیا بریم سراغ یه غافلگیری. Qwen (تلفظ: چِوِن) توسط Alibaba Cloud ساخته شده و شاید باورت نشه ولی یکی از بهترین گزینهها برای زبان فارسیه!
چرا؟ چون Alibaba روی دادههای چندزبانه خیلی سرمایهگذاری کرده. Qwen روی بیش از ۲۰ زبان آموزش دیده و زبانهای خاورمیانهای و آسیایی رو خیلی بهتر از بقیه مدلها میفهمه.
نسخههای مهم
- Qwen 2.5: نسل قبلی که خیلی محبوب شد
- Qwen 3 (۲۰۲۵): آخرین نسل با قابلیت Thinking Mode — یعنی مدل میتونه قبل از جواب دادن، فکر کنه
- Qwen-VL: نسخهای که تصاویر رو هم میفهمه (Multimodal)
- Qwen-Coder: نسخه مخصوص برنامهنویسی
چرا Qwen برای فارسی خوبه؟
یه تست ساده بکن: یه متن فارسی نسبتاً پیچیده بده به Llama 3 و Qwen 3 با سایز مشابه. تفاوت رو خودت میبینی. Qwen جملات فارسی طبیعیتری تولید میکنه، اشتباهات دستوری کمتری داره، و حتی ضربالمثلهای فارسی رو بهتر میفهمه.
دلیلش اینه که Alibaba به بازار خاورمیانه و ایران علاقه تجاری داره و دادههای فارسی بیشتری توی آموزش مدل استفاده کرده.
سایزهای موجود
Qwen 3 در سایزهای ۰.۶B، ۱.۷B، ۴B، ۸B، ۱۴B، ۳۲B و ۲۳۵B عرضه شده. نسخه ۸B و ۱۴B بهترین نسبت کیفیت به سختافزار رو دارن.
DeepSeek — قدرت استدلال
DeepSeek یه شرکت چینی دیگهست که با رویکرد متفاوتی وارد بازی شد. بهجای اینکه فقط روی بزرگتر کردن مدل تمرکز کنه، روی بهتر فکر کردن تمرکز کرد.
DeepSeek-R1: مدلی که فکر میکنه
DeepSeek-R1 یه مدل Reasoning (استدلالگر) هست. یعنی وقتی یه سوال ریاضی یا منطقی بهش بدی، قبل از جواب دادن، مرحلهبهمرحله فکر میکنه — دقیقاً مثل یه دانشآموز خوب که جواب رو مرحلهبهمرحله مینویسه.
DeepSeek-V3: مدل عمومی
کنار R1، مدل DeepSeek-V3 هم هست که یه مدل عمومی قویه. نکته جالبش اینه که با بودجه خیلی کمتر از رقبا آموزش دیده — یعنی تیم DeepSeek از نظر بهینهسازی خیلی باهوشه.
معماری MoE
DeepSeek از معماری Mixture of Experts استفاده میکنه. تصور کن بهجای یه دکتر عمومی که همهچیز بلده، یه تیم پزشکی داری که هر کدوم تو یه حوزه متخصصن. وقتی سوال ریاضی میپرسی، متخصص ریاضی فعال میشه. وقتی سوال ادبی میپرسی، متخصص ادبیات. این باعث میشه مدل هم سریعتر باشه و هم دقیقتر.
چطور مدل مناسب رو انتخاب کنیم؟
خب، حالا که سه خانواده اصلی رو شناختی، بیا یه فریمورک تصمیمگیری بسازیم.
۱. سایز مدل (Model Size)
مدلها بر اساس تعداد پارامترهاشون دستهبندی میشن. پارامتر یعنی اون اعدادی که مدل یاد گرفته. هر چی بیشتر باشه، مدل باهوشتره ولی سنگینتر هم هست.
- ۱-۳B: مناسب گوشی موبایل یا تست سریع. کیفیت پایین.
- ۷-۸B: نقطه شروع خوب. با یه GPU معمولی قابل اجراست.
- ۱۳-۱۴B: تعادل خوب بین کیفیت و سرعت.
- ۳۰-۷۰B: کیفیت بالا. به GPU حرفهای نیاز داره.
- بالای ۱۰۰B: نزدیک به مدلهای بسته. به چند GPU نیاز داره.
۲. Quantization — فشردهسازی هوشمند
یه ترفند مهم هست به اسم Quantization (کوانتیزاسیون یا فشردهسازی). فرض کن یه عکس ۱۰ مگابایتی داری. میتونی فشردهش کنی و ۲ مگ بشه، بدون اینکه کیفیتش خیلی بیاد پایین. با مدلها هم همین کار رو میشه کرد.
رایجترین فرمتها:
- FP16: نصف حجم اصلی، تقریباً بدون افت کیفیت
- INT8 (Q8): یکچهارم حجم اصلی، افت کیفیت بسیار کم
- INT4 (Q4): یکهشتم حجم اصلی، افت کیفیت محسوس ولی قابل قبول
۳. کاربرد (Use Case)
- چت فارسی عمومی: Qwen 3 (8B یا 14B)
- کدنویسی: Qwen-Coder یا DeepSeek-Coder
- استدلال و ریاضی: DeepSeek-R1 یا Qwen 3 (با Thinking Mode)
- کار عمومی انگلیسی: Llama 3 (8B یا 70B)
- پروژه تجاری: به لایسنس دقت کن — Llama و Qwen لایسنس تجاری دارن
۴. سختافزار موجود
# یه محاسبه سریع برای تخمین VRAM مورد نیاز:
# FP16: تعداد پارامتر × ۲ بایت
# INT8: تعداد پارامتر × ۱ بایت
# INT4: تعداد پارامتر × ۰.۵ بایت
# مثال: مدل ۱۴B با INT4
# ۱۴ × ۰.۵ = ۷ گیگابایت VRAM
# یعنی با یه RTX 3060 (12GB) راحت اجرا میشه
اوپنسورس در مقابل بسته — کدوم بهتره؟
جواب کوتاه: بستگی داره. ولی بیا مقایسه دقیقتری بکنیم.
کی از مدل بسته (مثل ChatGPT, Claude) استفاده کن:
- وقتی بالاترین کیفیت ممکن رو میخوای
- وقتی بودجه سختافزار نداری
- وقتی پروژهت کوچیکه و هزینه API ناچیزه
- وقتی نیاز به Multimodal (تصویر + متن) پیشرفته داری
کی از مدل اوپنسورس استفاده کن:
- وقتی حریم خصوصی دادهها مهمه (مثلاً دادههای پزشکی)
- وقتی حجم درخواستها زیاده و هزینه API سنگین میشه
- وقتی نیاز به شخصیسازی (Fine-tuning) داری
- وقتی میخوای آفلاین کار کنه
- وقتی میخوای یاد بگیری مدلها چطور کار میکنن
ابزارهای اجرای مدل اوپنسورس
حالا که مدل رو انتخاب کردی، باید اجراش کنی. چند ابزار مهم:
Ollama — سادهترین راه
Ollama مثل Docker برای مدلهاست. یه دستور میزنی، مدل دانلود و اجرا میشه.
# نصب Ollama
curl -fsSL https://ollama.com/install.sh | sh
# اجرای Qwen 3 8B
ollama run qwen3:8b
# اجرای Llama 3
ollama run llama3.1:8b
# لیست مدلهای دانلود شده
ollama list
LM Studio — با رابط گرافیکی
اگه ترمینال دوست نداری، LM Studio یه رابط گرافیکی خوشگل داره. دانلود کن، مدل رو انتخاب کن، و شروع به چت کن. سادهتر از این نمیشه.
vLLM — برای پروداکشن
وقتی میخوای مدل رو بهعنوان API سرو کنی (مثلاً برای یه اپلیکیشن)، vLLM بهترین انتخابه. سریعه، بهینهست، و از batching پشتیبانی میکنه.
# اجرای مدل بهعنوان API
vllm serve Qwen/Qwen3-8B --port 8000
# حالا میتونی مثل OpenAI API باهاش حرف بزنی
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "Qwen/Qwen3-8B", "messages": [{"role": "user", "content": "سلام!"}]}'
Hugging Face — بازار مدلها
Hugging Face رو میتونی مثل GitHub برای مدلهای هوش مصنوعی در نظر بگیری. تقریباً همه مدلهای اوپنسورس اونجا منتشر میشن. یه حساب بساز و شروع کن به گشتن.
وقتی میری صفحه یه مدل، این اطلاعات رو ببین:
- Model Card: توضیحات مدل، نحوه استفاده، محدودیتها
- Files: فایلهای وزن مدل
- Community: بحثها و سوالات کاربران
- Spaces: دموهای آنلاین — میتونی بدون دانلود تست کنی
جمعبندی
تو این اپیزود یاد گرفتی:
- تفاوت مدلهای اوپنسورس و بسته
- سه خانواده اصلی: Llama (عمومی و محبوب)، Qwen (عالی برای فارسی)، DeepSeek (قوی در استدلال)
- چطور بر اساس سایز، کاربرد، و سختافزار انتخاب کنی
- Quantization چیه و چرا مهمه
- ابزارهای Ollama، LM Studio، و vLLM
اپیزود بعدی: RAG — وقتی LLM حافظه پیدا میکنه
یه مشکل بزرگ با همه این مدلها هست: اطلاعاتشون قدیمیه و از دادههای تو خبر ندارن. اپیزود بعدی یاد میگیریم چطور با تکنیک RAG، به مدل حافظه اختصاصی بدیم تا بتونه از اسناد و دادههای خودت استفاده کنه. این تکنیک تو دنیای واقعی بیشتر از هر چیز دیگهای استفاده میشه!
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید