دنیای هوش مصنوعی پر از اصطلاحات انگلیسیه که اگه معنیشون رو ندونی، خیلی زود گیج میشی. فرقی نداره مدیر کسبوکار باشی یا توسعهدهنده — هر جا که بحث AI وسط میاد، یه عالمه واژه تخصصی داره. این فرهنگ لغت هوش مصنوعی رو نوشتم تا یه مرجع کامل و همیشه در دسترس باشه. بیش از ۱۰۰ اصطلاح رو اینجا جمع کردم، از سادهترین مفاهیم تا پیشرفتهترین تکنیکها. ترتیب اصطلاحات هم آموزشیه — یعنی اگه از بالا شروع کنی و تا آخر بخونی، یه نقشه ذهنی کامل از دنیای AI پیدا میکنی.
هر اصطلاح رو ساده و خودمونی توضیح دادم. جایی که لازم بوده تشبیه زدم، مثال آوردم و سعی کردم ارتباطش رو با بقیه مفاهیم نشون بدم. اگه قبلاً مقالات RAG چیست یا راهنمای Prompt Engineering رو خوندی، این فرهنگ لغت هوش مصنوعی مکمل عالیشونه. و اگه تازه شروع کردی، همینجا بهترین نقطه شروعه.
- پایهایترین مفاهیم — اصطلاحات ۱ تا ۱۵
- مدلهای زبانی — اصطلاحات ۱۶ تا ۲۷
- مدلهای معروف — اصطلاحات ۲۸ تا ۳۷
- تکنیکها و مفاهیم کلیدی — اصطلاحات ۳۸ تا ۵۲
- RAG — اصطلاحات ۵۳ تا ۶۴
- Fine-tuning — اصطلاحات ۶۵ تا ۷۶
- Agent — اصطلاحات ۷۷ تا ۸۶
- معماری و زیرساخت — اصطلاحات ۸۷ تا ۹۶
- کسبوکار و کاربرد — اصطلاحات ۹۷ تا ۱۰۸
۱. پایهایترین مفاهیم
اصطلاحات ۱ تا ۱۵
قبل از هر چیزی، باید زبان مشترک داشته باشیم. این بخش شامل مفاهیمیه که اگه ندونیشون، بقیه مطالب مثل یه زبان خارجی میشه. نگران نباش — هیچکدوم پیچیده نیستن. فقط یه بار بخون، و کل مسیر بعدی برات روشن میشه.
Artificial Intelligence (AI) — هوش مصنوعی
بزرگترین چتر این حوزه. هوش مصنوعی یعنی هر سیستم کامپیوتری که کاری رو انجام بده که اگه انسان انجامش میداد، میگفتیم «هوش لازم داشته». این تعریف خیلی گستردهست — از یه فیلتر اسپم ایمیل ساده گرفته تا ChatGPT همه AI هستن.
نکته مهم اینه که AI یه طیف وسیعه. یه الگوریتم پیشنهاد فیلم نتفلیکس AI هست. سیستم تشخیص پلاک ماشین AI هست. Claude و GPT هم AI هستن. وقتی کسی میگه «من متخصص AI هستم» باید بپرسی «چه نوعش؟» — مثل اینکه کسی بگه «من پزشک هستم» و تو بپرسی «چه تخصصی؟»
Machine Learning (ML) — یادگیری ماشین
زیرمجموعه AI. به جای اینکه برنامهنویس قانون بنویسه، به ماشین میگه «خودت از روی دادهها قانون رو پیدا کن». فکر کن میخوای فیلتر اسپم بسازی. روش قدیمی: هزار تا قانون بنویسی («اگه کلمه “برنده شدی” داشت، اسپمه»). روش ML: هزار ایمیل میدی و میگی خودش الگو پیدا کنه.
انقلاب ML اینجاست که الگوریتم الگوهایی رو کشف میکنه که حتی به ذهن برنامهنویس نمیرسید. مثلاً ممکنه بفهمه ایمیلهایی که ساعت ۳ شب فرستاده میشن و عکس دارن، احتمال اسپم بودنشون بالاتره — الگویی که آدم هیچوقت بهش فکر نمیکرد.
Deep Learning (DL) — یادگیری عمیق
زیرمجموعه ML ولی با یه تفاوت بزرگ: از شبکههای عصبی چندلایه استفاده میکنه. توی ML سنتی باید «ویژگی» (feature) داده رو دستی بسازی — مثلاً برای تشخیص گربه توی عکس، باید بگی «تعداد چشمها رو بشمار، رنگ مو رو ببین». ولی Deep Learning گفت: «نه. خود مدل ویژگیها رو پیدا میکنه. فقط داده خام (raw data) بده.»
کلمه «Deep» (عمیق) یعنی چندین لایه. شبکههای اولیه ۲-۳ لایه داشتن. مدلهای مدرن ممکنه ۱۰۰+ لایه داشته باشن. هرچی عمیقتر، الگوهای پیچیدهتری یاد میگیره. ChatGPT، Claude و همه LLM ها از همین Deep Learning استفاده میکنن.
Neural Network (NN) — شبکه عصبی
ساختار اصلی Deep Learning. تصور کن یه ماشین داری که چند تا «لایه» داره. هر لایه از تعدادی «گره» (node یا neuron) تشکیل شده. اطلاعات از لایه اول وارد میشه، توی هر لایه یه تبدیل ریاضی انجام میشه، و توی لایه آخر خروجی بیرون میاد.
هر اتصال بین گرهها یه عدد داره به اسم «وزن» (weight). وقتی مدل رو آموزش میدی، در واقع داری این وزنها رو تنظیم میکنی تا خروجی درست بشه. یه مدل ۷۰ میلیارد پارامتری یعنی ۷۰ میلیارد از این وزنها داره. شبکه عصبی مثل یه pipeline از function هاست — هر function ورودی میگیره، تبدیلش میکنه و میده به بعدی.
Supervised Learning — یادگیری با ناظر
رایجترین نوع ML. به مدل داده به همراه «جواب درست» میدی. مثلاً ۱۰ هزار عکس گربه و سگ با برچسب («این گربهست»، «این سگه»). مدل یاد میگیره که چه چیزی گربه رو از سگ متمایز میکنه.
دو کاربرد اصلی داره: Classification (دستهبندی) مثل «این ایمیل اسپمه یا نه؟» و Regression (رگرسیون) مثل «قیمت این خونه چقدره؟». وقتی توی Fine-tuning میگیم «مدل رو روی دادههای خودم آموزش میدم»، در واقع داریم Supervised Learning انجام میدیم.
Unsupervised Learning — یادگیری بدون ناظر
اینجا فقط داده میدی، بدون جواب. مدل خودش الگو پیدا میکنه. مثلاً به مدل دادههای ۱۰۰ هزار مشتری رو میدی و میگه «این مشتریها به ۵ گروه طبیعی تقسیم میشن». کسی بهش نگفته این گروهها چیه — خودش کشف کرده.
دو کاربرد مهم داره: Clustering (خوشهبندی) مثل دستهبندی مشتریها، و Dimensionality Reduction (کاهش بعد) مثل وقتی ۱۰۰ تا ویژگی داری و میخوای به ۵ تا کاهش بدی بدون از دست دادن اطلاعات.
Reinforcement Learning (RL) — یادگیری تقویتی
مدل توی یه محیط قرار میگیره و کار میکنه. اگه خوب کار کرد، پاداش میگیره. اگه بد کرد، جریمه. به مرور یاد میگیره چطور پاداشش رو ماکزیمم کنه. همون روشی که AlphaGo (هوش مصنوعی که شطرنج و Go رو شکست داد) باهاش آموزش دید.
چرا باید بدونی؟ چون RLHF (Reinforcement Learning from Human Feedback) یکی از مراحل کلیدی ساخت LLM هاست. وقتی ChatGPT بعد از آموزش اولیه «ادبدار» میشه و جوابهای خطرناک نمیده، اون بخش RL رو با فیدبک انسانی انجام دادن.
| ویژگی | Supervised | Unsupervised | Reinforcement |
|---|---|---|---|
| ورودی | داده + جواب | فقط داده | محیط + بازخورد |
| خروجی | قانون (مدل) | الگو/گروهبندی | سیاست بهینه |
| مثال | تشخیص اسپم | دستهبندی مشتری | RLHF / بازی |
| کاربرد در AI امروز | Fine-tuning | Clustering | همترازی مدل |
Classification — دستهبندی
یکی از رایجترین کارهای ML. مدل یه ورودی میگیره و اون رو توی یکی از «دستهها» قرار میده. مثلاً: «این ایمیل اسپمه یا نه؟» (دو دسته)، «این عکس گربهست، سگه یا پرنده؟» (سه دسته)، یا «این محصول رو ۱ تا ۵ ستاره بده» (پنج دسته).
Classification در همه جا هست — از فیلتر اسپم گرفته تا تشخیص بیماری. حتی وقتی یه مدل زبانی مثل Claude جواب میده، در سطح پایینتر داره Classification انجام میده: «کدوم کلمه احتمالش بیشتره بعد از این کلمه بیاد؟»
Regression — رگرسیون
برخلاف Classification که دسته مشخص میکنه، Regression یه عدد پیشبینی میکنه. «قیمت این خونه چقدره؟» (یه عدد)، «فردا دما چند درجه میشه؟» (یه عدد)، «این مشتری چند ماه دیگه ریزش میکنه؟» (یه عدد).
Regression مثل Classification پایهای و قدیمیه ولی هنوز پرکاربرده. توی خیلی از پروژههای کسبوکاری، مدلهای Regression ساده بهتر از مدلهای پیچیده Deep Learning جواب میدن — مخصوصاً وقتی داده کم داری.
Feature Engineering — مهندسی ویژگی
توی ML سنتی (قبل از Deep Learning)، سختترین بخش همین بود. یعنی دستی بهترین ویژگیها رو از داده استخراج کنی. مثلاً برای پیشبینی قیمت خونه: متراژ، تعداد اتاق، فاصله تا مترو، سال ساخت — اینا رو باید خودت انتخاب میکردی.
Deep Learning ضربه بزرگی به Feature Engineering زد چون خود مدل ویژگیها رو از داده خام یاد میگیره. ولی هنوز توی خیلی از پروژهها (مخصوصاً با داده جدولی) Feature Engineering اهمیت زیادی داره. مدلهای سادهتر مثل XGBoost با Feature Engineering خوب اغلب از مدلهای عمیق بدون ویژگیسازی بهتر عمل میکنن.
Overfitting — بیشبرازش
یکی از رایجترین مشکلات ML. مدل روی داده آموزشی عالی کار میکنه ولی روی داده جدید افتضاح. چرا؟ چون داده آموزشی رو حفظ کرده، نه اینکه الگوی واقعی رو یاد گرفته باشه. مثل دانشآموزی که سوالات امتحانات قبلی رو حفظ کرده ولی مفهوم درس رو نفهمیده.
Overfitting مخصوصاً وقتی داده کم داری و مدل خیلی پیچیدهست اتفاق میافته. راهحلهاش: داده بیشتر، مدل سادهتر، Dropout، Regularization و Early Stopping. توی Fine-tuning هم اگه حواست نباشه، مدل ممکنه Overfit بشه — یکی از ۱۰ اشتباه رایج پروژههای AI همینه.
Learning Rate — نرخ یادگیری
یکی از مهمترین hyperparameter ها. تصور کن داری از یه کوه پایین میای و دنبال پایینترین نقطه (دره) میگردی. Learning Rate اندازه قدمهاته. خیلی بزرگ؟ از دره رد میشی. خیلی کوچیک؟ تا ابد طول میکشه برسی.
توی Fine-tuning، Learning Rate معمولاً خیلی کوچیک انتخاب میشه (مثلاً 2e-5) چون نمیخوای دانش قبلی مدل رو خراب کنی. فقط میخوای یه تنظیم ظریف انجام بدی. اگه Learning Rate رو زیاد بذاری، مدل «فراموشی فاجعهبار» (Catastrophic Forgetting) میگیره و دانش قبلیش رو از دست میده.
Backpropagation — پسانتشار
الگوریتمی که اساس آموزش شبکههای عصبیه. وقتی مدل یه جواب اشتباه میده، Backpropagation خطا رو از خروجی به عقب (لایههای قبلی) برمیگردونه و وزنها رو تنظیم میکنه. مثل اینکه معلم بگه «اینجا اشتباه کردی» و تو برگردی و ببینی کجای فکرت مشکل داشته.
این الگوریتم در سال ۱۹۸۶ دوباره کشف شد ولی تا سال ۲۰۱۲ که GPU های قوی اومدن، واقعاً عملی نبود. الان هر بار که یه مدل «آموزش میبینه» یعنی داره میلیاردها بار Backpropagation انجام میده.
Dataset — مجموعه داده
دادهای که برای آموزش استفاده میشه. میتونه متن، تصویر، صوت یا هر چیز دیگه باشه. مهمترین عامل کیفیت مدل نهایی همینه. «Garbage in, garbage out» (آشغال وارد، آشغال خارج) شعار قدیمی AI هست که هنوز صددرصد درسته.
کیفیت Dataset مهمتر از اندازهشه. ۱۰۰۰ نمونه تمیز و متنوع بهتر از ۱ میلیون نمونه شلوغ و تکراریه. توی سری Fine-tuning عملی مفصل درباره ساخت Dataset خوب صحبت کردم.
Parameter — پارامتر
هر وزن (weight) داخل شبکه عصبی یه پارامتره. وقتی میگیم مدل ۷B (هفت میلیارد پارامتر) هست، یعنی ۷ میلیارد عدد داره که توی آموزش تنظیم شدن. مدل ۷۰B یعنی ۷۰ میلیارد. هرچی بیشتر، مدل قویتره ولی به VRAM بیشتری هم نیاز داره.
یه قاعده سرانگشتی: هر میلیارد پارامتر تقریباً ۲ گیگابایت VRAM نیاز داره (با دقت FP16). یعنی مدل ۷B حدود ۱۴ گیگ، مدل ۷۰B حدود ۱۴۰ گیگ VRAM میخواد. البته با Quantization (که بعداً توضیح میدم) این عدد خیلی کمتر میشه.
۲. مدلهای زبانی
اصطلاحات ۱۶ تا ۲۷
مدلهای زبانی بزرگ (LLM ها) قهرمانهای دنیای AI امروز هستن. همون چیزی که ChatGPT و Claude رو میسازه. این بخش اصطلاحاتی رو پوشش میده که برای فهمیدن نحوه کار LLM ها لازمه بدونی — از Token و Embedding تا Context Window و Temperature. اگه با سری از صفر تا متخصص AI آشنایی، خیلی از اینا رو دیدی. ولی اینجا یه مرور سریع و دقیقه.
Large Language Model (LLM) — مدل زبانی بزرگ
یه شبکه عصبی عمیق که مخصوص زبان طبیعیه. LLM ها روی تریلیونها کلمه از اینترنت آموزش دیدن، معماری خاصی به اسم Transformer دارن، و کارشون پیشبینی کلمه بعدیه. ولی به خاطر مقیاس عظیمشون، میتونن خیلی فراتر از پیشبینی ساده عمل کنن — استدلال کنن، خلاصه کنن، ترجمه کنن و کد بنویسن.
یه کشف جالب دهه گذشته: وقتی مدل به اندازه کافی بزرگ باشه و روی داده کافی آموزش ببینه، قابلیتهایی ظاهر میشن که هیچکس بهشون آموزش نداده بود (Emergent Abilities). مثلاً GPT-3 ناگهان میتونست ریاضی حل کنه بدون اینکه کسی ریاضی بهش یاد داده باشه.
Transformer — ترنسفورمر
معماری انقلابی که پشت تمام LLM های مدرنه. گوگل در مقاله مشهور «Attention is All You Need» (۲۰۱۷) این معماری رو معرفی کرد. قبلش از RNN و LSTM استفاده میشد که کُند بودن و با متنهای بلند مشکل داشتن.
ایده اصلی Transformer مکانیزم «Attention» هست — مدل میتونه هر کلمه رو با همه کلمات دیگه مقایسه کنه و ببینه کدومها مهمترن. مثلاً توی جمله «علی سگش رو بُرد پارک و اونجا باهاش بازی کرد»، مدل باید بفهمه «اونجا» به «پارک» اشاره داره. Attention همین کار رو میکنه.
Token — توکن
کوچکترین واحد متنی که مدل میبینه. برخلاف انتظار، یه Token همیشه یه کلمه نیست. میتونه یه کلمه باشه، نصف کلمه، یا حتی یه نشانه. مثلاً «tokenization» ممکنه به ۴ توکن تقسیم بشه: «token / iza / tion /». متن فارسی معمولاً توکنهای بیشتری مصرف میکنه چون مدلها بیشتر روی انگلیسی آموزش دیدن.
چرا Token مهمه؟ چون قیمتگذاری API ها (مثل OpenAI و Anthropic) بر اساس تعداد توکنه. اندازه Context Window هم بر اساس توکنه. یه قاعده سرانگشتی: هر توکن تقریباً ۰.۷۵ کلمه انگلیسیه.
BPE (Byte-Pair Encoding) — رمزگذاری جفتبایت
الگوریتمی که مدلها برای تبدیل متن به توکن ازش استفاده میکنن. ایدهاش سادهست: از کاراکترهای تکی شروع میکنه و جفتهای پرتکرار رو ادغام میکنه. مثلاً «t» و «h» خیلی کنار هم میان، پس «th» یه توکن میشه. بعد «the» یه توکن میشه. و همینطور ادامه پیدا میکنه.
چرا BPE مهمه؟ چون کیفیت Tokenization مستقیماً روی عملکرد مدل تأثیر داره. مدلهایی که توکنایزر بهتری دارن، فارسی رو بهتر میفهمن. مقایسه Qwen و Llama نشون میده مدلهایی که توکنایزر چندزبانه بهتری دارن، فارسی رو بهتر پردازش میکنن.
Embedding — تعبیهسازی
تبدیل متن (یا هر نوع دادهای) به یه لیست از اعداد (بردار) که معنا رو نشون میده. مثلاً کلمه «گربه» تبدیل میشه به یه بردار ۷۶۸ بعدی. دو کلمه که معنی نزدیکی دارن، بردارهاشون هم نزدیک به هم میشه. اساس RAG، جستجوی معنایی و خیلی چیزهای دیگه همین Embedding هست.
مدلهای Embedding مجزا از LLM ها هستن. کوچکتر، سریعتر و ارزونترن. مثل text-embedding-3 از OpenAI یا BGE-M3 که اوپنسورسه و فارسی رو هم خوب ساپورت میکنه. توی مقاله Vector Database بیشتر دربارهشون توضیح دادم.
Context Window — پنجره زمینه
حداکثر تعداد توکنهایی که مدل میتونه یکجا «ببینه». مثلاً GPT-3 پنجره ۴۰۹۶ توکنی داشت. مدلهای مدرن ممکنه ۲۰۰ هزار، ۱ میلیون یا حتی ۱۲ میلیون توکن پنجره داشته باشن. هرچی بزرگتر، مدل میتونه context بیشتری از گفتگو رو نگه داره.
ولی بزرگتر همیشه بهتر نیست. هم هزینه بیشتره، هم پدیده «Lost in the Middle» وجود داره — مدل اطلاعاتی که وسط Context هستن رو بدتر از ابتدا و انتها به یاد میاره. مقاله Context Window رو بخون برای جزئیات بیشتر.
Prompt — دستور
چیزی که به مدل میدی. میتونه سوال باشه، دستور باشه، یا متن. هنر طراحی Prompt خوب رو میگن Prompt Engineering — و خیلی مهمتر از چیزیه که فکر میکنی. یه Prompt خوب میتونه خروجی رو از «بد» به «عالی» تبدیل کنه.
راهنمای کامل Prompt Engineering رو نوشتم تا بهت نشون بدم چطور سوالات بهتری از مدل بپرسی. حتی اگه فقط از ChatGPT استفاده میکنی و کاری به کد نداری، Prompt Engineering بهت کمک میکنه.
Completion / Response — پاسخ
خروجی مدل. وقتی Prompt میفرستی، چیزی که مدل برمیگردونه Completion یا Response هست. اسمش Completion هست چون LLM در اصل داره متن تو رو «تکمیل» میکنه — پیشبینی میکنه بعد از متن تو چی باید بیاد.
طول Completion رو معمولاً با پارامتر max_tokens کنترل میکنی. مثلاً اگه بذاری ۱۰۰۰ توکن، مدل حداکثر ۱۰۰۰ توکن جواب میده. دقت کن: هم Prompt و هم Completion از Context Window استفاده میکنن.
Autoregressive — خودبازگشتی
نحوه تولید متن توسط LLM. مدل هر بار فقط یه توکن تولید میکنه، بعد اون توکن رو به ورودی اضافه میکنه و توکن بعدی رو پیشبینی میکنه. مثل اینکه یه نویسنده هر بار فقط یه کلمه بنویسه و بعد بخونه چی نوشته و کلمه بعدی رو تصمیم بگیره.
این یعنی سرعت تولید متن توسط LLM محدوده — نمیتونه همزمان همه کلمات رو تولید کنه. به همین دلیل وقتی از ChatGPT استفاده میکنی، جواب کلمه به کلمه ظاهر میشه (streaming). همچنین یعنی هر اشتباه اولیه میتونه بقیه خروجی رو تحت تأثیر بذاره.
Hallucination — توهم
وقتی مدل با اعتماد به نفس کامل یه چیز اشتباه میگه. بزرگترین مشکل LLM ها همینه. مثلاً ازش بپرسی «نویسنده کتاب X کیه؟» و اگه نمیدونه، یه اسم اختراع میکنه و با اطمینان تحویلت میده — انگار واقعاً درسته.
برای پروژههای جدی این خیلی خطرناکه. تصور کن AI به کاربر برنامه ورزشی اشتباه پیشنهاد بده. راهحل اصلی: RAG (دادن اطلاعات واقعی به مدل) و «بگو نمیدونم» prompt (آموزش دادن به مدل که وقتی مطمئن نیست، اعتراف کنه).
Temperature — دما
پارامتری که میزان «خلاقیت» مدل رو کنترل میکنه. صفر یعنی همیشه احتمالیترین جواب — کاملاً قابل پیشبینی. عدد بالا (مثلاً ۱.۵) یعنی جوابهای متنوع و خلاقانه — ممکنه عجیب هم بشه.
برای پروژههایی که دقت مهمه (مثل RAG، استخراج اطلاعات) Temperature رو صفر یا نزدیک صفر بذار. برای نوشتن خلاقانه، ۰.۷ تا ۰.۹ خوبه. Temperature بالای ۱ معمولاً خروجی بیکیفیت تولید میکنه — هیجانانگیز ولی نامعتبر.
Logits و Softmax و Top-k — مکانیزم انتخاب کلمه
وقتی مدل میخواد کلمه بعدی رو انتخاب کنه، اول یه عدد خام (Logit) به هر کلمه توی واژهنامهاش اختصاص میده. بعد Softmax این اعداد خام رو به احتمال تبدیل میکنه (جمعشون ۱ میشه). مثلاً: «سلام» ۰.۴، «درود» ۰.۲، «هی» ۰.۱ و… بعد از این احتمالات، یکی رو انتخاب میکنه.
Top-k یه فیلتره: فقط k تا کلمه با بالاترین احتمال رو نگه میداره و بقیه رو حذف میکنه. مثلاً Top-k=50 یعنی فقط از ۵۰ گزینه برتر انتخاب کن. این باعث میشه خروجی منطقیتر بشه. Top-p (یا Nucleus Sampling) هم مشابهه ولی بر اساس مجموع احتمالات فیلتر میکنه.
۳. مدلهای معروف
اصطلاحات ۲۸ تا ۳۷
حالا که فهمیدی LLM چطور کار میکنه، بذار ببینیم بازیگرهای اصلی کی هستن. هر ماه مدلهای جدیدی معرفی میشن ولی این لیست شامل مهمترینهایی هست که الان (۲۰۲۶) باید بشناسی. مدلها رو به دو دسته Open-Source و Closed-Source تقسیم میکنیم.
Open-Source vs Closed-Source — مدل باز و بسته
Closed-Source: مدل رو نمیتونی دانلود کنی. فقط از طریق API استفاده میکنی (مثل GPT-5، Claude). دادههات به سرور اونا میره. Open-Source: مدل رو میتونی دانلود کنی، روی سرور خودت اجرا کنی، حتی تغییرش بدی (مثل Llama، Qwen، DeepSeek).
برای پروژههای جدی، مخصوصاً وقتی حریم خصوصی دادهها مهمه یا میخوای مدل رو Fine-tune کنی، open-source انتخاب بهتریه. مدلهای open-source الان به مدلهای بسته خیلی نزدیک شدن — یکی از بزرگترین تحولات ۲۰۲۴-۲۰۲۶.
| ویژگی | Open-Source | Closed-Source |
|---|---|---|
| دسترسی | دانلود + اجرای لوکال | فقط API |
| هزینه | GPU خودت (یا ابری) | هزینه per-token |
| حریم خصوصی | داده پیش خودت میمونه | داده به سرور اونا میره |
| Fine-tuning | کاملاً ممکن | محدود |
| مثال | Llama 4, Qwen 3, DeepSeek V4 | GPT-5, Claude Opus 4.7 |
GPT — خانواده مدلهای OpenAI
Generative Pre-trained Transformer. خانواده مدلهایی که دنیا رو عوض کردن. GPT-3 (۲۰۲۰) دنیا رو شوکه کرد، ChatGPT (نوامبر ۲۰۲۲) سریعترین رشد محصول دیجیتال تاریخ بود (۱ میلیون کاربر در ۵ روز)، و GPT-5 (۲۰۲۵) حالا فرانتیر مدلهای بستهست.
OpenAI مدلهای متنوعی داره: GPT-5 (قویترین)، GPT-5.5 (جدیدترین)، و مدلهای o-series برای reasoning. دسترسی فقط از طریق API و ChatGPT — مدلها open-source نیستن.
Claude — خانواده مدلهای Anthropic
مدلهای ساخت Anthropic. Claude به خاطر ایمنی، دقت و پنجره Context بزرگش معروفه. Claude Opus 4.7 (جدیدترین مدل flagship) یکی از قویترین مدلهای موجوده. Claude همچنین Sonnet (سریعتر و ارزونتر) و Haiku (کوچکترین و سریعترین) داره.
Anthropic رویکرد خاصی به ایمنی AI داره و Claude رو با تکنیک Constitutional AI آموزش میده. دسترسی از طریق API و claude.ai.
Gemini — خانواده مدلهای Google
مدلهای گوگل. Gemini ذاتاً multi-modal هست — یعنی از اول طوری طراحی شده که هم متن، هم تصویر، هم صوت و هم ویدیو رو بفهمه. Gemini 2.5 (آخرین نسخه) پنجره Context خیلی بزرگی داره و عملکرد رقابتیای با GPT-5 و Claude داره.
گوگل Gemini رو توی تمام محصولاتش ادغام کرده — از جستجو گرفته تا Android و Google Workspace.
Llama — مدل اوپنسورس Meta
خانواده مدلهای اوپنسورس Meta (شرکت مادر فیسبوک). Llama وقتی منتشر شد بازی رو عوض کرد — اولین بار بود که یه مدل بزرگ با کیفیت خیلی بالا آزادانه در دسترس قرار گرفت. Llama 4 (جدیدترین) رقیب جدی مدلهای بستهست.
Llama مناسب Fine-tuning هست و community بزرگی داره. اگه تازه شروع میکنی با مدلهای اوپنسورس، Llama یکی از بهترین انتخابهاست. مقایسه Qwen و Llama رو بخون اگه میخوای بدونی کدوم برای فارسی بهتره.
Qwen — مدل اوپنسورس Alibaba
مدلهای ساخت Alibaba Cloud. Qwen 3 (آخرین نسخه) از نظر عملکرد خیلی قوی شده و مخصوصاً برای زبانهای غیرانگلیسی (از جمله فارسی) عملکرد بهتری داره. توکنایزر Qwen برای زبانهای آسیایی بهینهتره.
Qwen در اندازههای مختلف (۰.۵B تا ۷۲B+) عرضه میشه و برای Fine-tuning روی فارسی یکی از بهترین گزینههاست.
DeepSeek — مدل اوپنسورس چینی
مدلهای ساخت شرکت چینی DeepSeek. نسخه V4 (با ۱.۶ تریلیون پارامتر) یکی از قویترین مدلهای اوپنسورس جهانه. DeepSeek با معماری MoE (Mixture of Experts) کار میکنه که بهش اجازه میده با منابع کمتر، عملکرد بالایی داشته باشه.
DeepSeek مخصوصاً در کدنویسی و ریاضی قوی عمل میکنه. DeepSeek-R1 (مدل reasoning) هم خیلی مورد توجه قرار گرفته.
Mistral — مدل اوپنسورس فرانسوی
شرکت فرانسوی Mistral AI مدلهایی میسازه که نسبت اندازه به عملکردشون فوقالعادهست. Mistral Large (آخرین مدل بزرگشون) یکی از قویترین مدلهای اوپنسورسه. Mistral همچنین مدلهای کوچکتری مثل Mixtral و Mistral 7B داره.
مزیت اصلی Mistral: مدلهای کوچکشون با کیفیت بالا، عالی برای شروع و آزمایش هستن. اگه GPU محدود داری، مدلهای Mistral گزینه خوبی هستن.
BERT — مدل فهم متن Google
Bidirectional Encoder Representations from Transformers. مدلی که گوگل در ۲۰۱۸ منتشر کرد. برخلاف GPT که «تولید» متنه، BERT برای «فهم» متنه. BERT متن رو از دو طرف (چپ به راست و راست به چپ) میخونه و معنا رو درک میکنه.
BERT برای تولید متن مناسب نیست ولی برای Classification، استخراج اطلاعات و جستجو فوقالعادهست. خیلی از مدلهای Embedding مدرن بر اساس معماری BERT ساخته شدن. جستجوی گوگل سالها از BERT استفاده کرد.
Multi-modal — چندوجهی
مدلی که فقط متن نیست. میتونه عکس، صوت، ویدیو هم بفهمه. GPT-5 و Claude Opus 4 هم متن، هم تصویر، هم ویدیو رو میفهمن. این یعنی میتونی عکس یه نمودار رو بفرستی و بگی «تحلیلش کن» یا عکس غذا بفرستی و بگی «کالریش چقدره».
روند بازار به سمت Multi-modal هست. مدلهای آینده همه Multi-modal خواهند بود. همچنین مدلهای تخصصی دیگهای هم هستن: Image Models (مثل Midjourney، DALL-E)، Audio Models (مثل Whisper برای Speech-to-Text) و Video Models (مثل Sora و Veo).
۴. تکنیکها و مفاهیم کلیدی
اصطلاحات ۳۸ تا ۵۲
حالا که بازیگرهای اصلی رو شناختی، وقتشه ابزارها و تکنیکها رو یاد بگیری. این بخش مفاهیمی رو پوشش میده که هر کسی — چه مدیر کسبوکار، چه توسعهدهنده — باید بدونه. از Prompt Engineering تا Quantization، از Training تا Inference.
Training — آموزش
فرآیند یاد دادن مدل از روی داده. توی این مرحله، وزنهای (parameters) مدل تنظیم میشن. گرونترین بخشه — میتونه میلیونها دلار GPU بخوره. برای یه مدل از صفر تربیت کردن، نیاز به هزاران GPU داره. این کار رو ما نمیکنیم — مدل آماده میگیریم.
وقتی Meta مدل Llama رو منتشر میکنه، اون مدل قبلاً training شده. یعنی میلیونها دلار خرج شده. ما فقط ازش استفاده میکنیم (Inference) یا Fine-tune اش میکنیم.
Pre-training — پیشآموزش
مرحله اول Training. مدل روی حجم عظیمی از متن اینترنت آموزش میبینه. فقط یه کار یاد میگیره: «با توجه به کلمات قبلی، کلمه بعدی رو پیشبینی کن». اینقدر سادهست. ولی همین کار ساده روی تریلیونها کلمه، مدل رو به یه سیستم فوقالعاده باهوش تبدیل میکنه.
بعد از Pre-training، مدل هنوز آماده استفاده نیست. لازمه مراحل بعدی (SFT و RLHF) هم انجام بشه تا مدل «مفید» و «بیخطر» بشه.
Inference — استنتاج
استفاده از مدل بعد از آموزش. یعنی وقتی به مدل ورودی میدی و خروجی میگیری. هر بار که با ChatGPT صحبت میکنی، داری Inference انجام میدی. این بخش ارزونتره ولی هنوز قابل توجهه — تمام کاری که سرور GPU قراره بکنه، Inference هست.
تفاوت کلیدی: Training مثل ساختن یه کارخونهست — یه بار خیلی گرون. Inference مثل تولید کالا — هر دفعه ارزونتر ولی مدام انجام میشه. شما به عنوان استفادهکننده، فقط با Inference و Fine-tuning سر و کار دارید، نه Training از صفر.
Prompt Engineering — مهندسی دستور
هنر نوشتن Prompt خوب برای گرفتن بهترین نتیجه از مدل. شامل تکنیکهایی مثل Few-shot (دادن چند مثال)، Chain-of-Thought (خواستن استدلال مرحلهبهمرحله)، و Role-playing (دادن نقش به مدل). یه Prompt خوب میتونه خروجی رو بهطرز چشمگیری بهتر کنه.
راهنمای کامل Prompt Engineering رو نوشتم. اگه فقط یه مهارت از دنیای AI یاد بگیری، همین باشه — چون بدون کدنویسی هم قابل استفادهست.
System Prompt — دستور سیستمی
دستوری که قبل از پیام کاربر به مدل داده میشه و رفتار کلیشو مشخص میکنه. مثلاً: «تو یه دستیار پشتیبانی فارسیزبان هستی. فقط درباره محصولات ما جواب بده. مودب باش. اگه نمیدونی، بگو نمیدونم.»
System Prompt مهمترین ابزار کنترل رفتار مدل در پروژههای واقعیه. توی پروژههای Agent و RAG، System Prompt تعیین میکنه مدل چه نقشی داره، چه محدودیتهایی داره و چطور باید جواب بده. بدون System Prompt خوب، پروژهات قابل پیشبینی نیست.
Fine-tuning — تنظیم دقیق
یه مدل از قبل آموزشدیده (pre-trained) رو میگیری و روی دادههای خاص خودت یه مقدار بیشتر آموزش میدی تا برای کار خاصت بهتر بشه. خیلی ارزونتر از Training از صفره. شما توی سری Fine-tuning عملی این کار رو زیاد میکنید.
Fine-tuning برای تغییر لحن، یادگیری فرمت خاص، و تخصصی کردن مدل عالیه. ولی برای «دادن اطلاعات جدید» به مدل، RAG بهتره. ترکیب هر دو (Fine-tune + RAG) بهترین نتیجه رو میده.
Quantization — کمدقتسازی
تکنیکی برای کوچکتر کردن مدل با کم کردن دقت پارامترها. مثلاً به جای اینکه هر پارامتر ۲ بایت باشه (FP16)، میشه نیم بایت (INT4). مدل ۴ برابر کوچکتر میشه اما کیفیتش فقط کمی پایین میاد. این تکنیک حیاتیه برای اجرای مدلهای بزرگ روی سختافزار محدود.
با Quantization میتونی یه مدل ۷۰B رو که معمولاً ۱۴۰ گیگ VRAM میخواد، با ۳۵ گیگ (INT4) اجرا کنی. ابزارهایی مثل GGUF و AWQ برای Quantization محبوبن.
| فرمت | اندازه هر پارامتر | اندازه مدل ۷B | کیفیت |
|---|---|---|---|
| FP32 | ۴ بایت | ~۲۸ گیگ | بالاترین (مرجع) |
| FP16 / BF16 | ۲ بایت | ~۱۴ گیگ | عملاً مثل FP32 |
| INT8 | ۱ بایت | ~۷ گیگ | کاهش جزئی |
| INT4 | ۰.۵ بایت | ~۳.۵ گیگ | قابل قبول برای اکثر کارها |
Emergent Abilities — قابلیتهای ظهوریافته
یکی از عجیبترین کشفهای دنیای AI. وقتی مدل به اندازه کافی بزرگ میشه، ناگهان قابلیتهایی ظاهر میشن که هیچکس بهش آموزش نداده بود. مثلاً GPT-2 (مدل ۲۰۱۹) نمیتونست ریاضی حل کنه. GPT-3 (۲۰۲۰) که فقط بزرگتر شده بود، یهو میتونست!
هیچکس دقیقاً نمیدونه چرا این اتفاق میافته. حتی محققان OpenAI و Anthropic این رو «تجربی» توصیف میکنن — یعنی «میبینیم که هست ولی نمیدونیم چرا». این یعنی توسعه با LLM یه مقدار «غیرقابل پیشبینی» هست. باید آماده باشی که گاهی چیزی که فکر میکردی کار میکنه، نکنه و برعکس.
Knowledge Cutoff — مرز دانش
هر مدل تا یه تاریخ مشخص آموزش دیده و بعدش هیچی نمیدونه. مثلاً اگه مدلت تا مارس ۲۰۲۶ آموزش دیده، از رویدادهای بعدش بیخبره. این یکی از دلایل اصلی نیاز به RAG هست — بتونی اطلاعات بهروز به مدل بدی.
Knowledge Cutoff فقط درباره «تاریخ» نیست. مدل هیچ چیزی از دادههای خصوصی تو هم نمیدونه — محصولاتت، قیمتهات، مستنداتت. اینجاست که RAG نقش حیاتی بازی میکنه.
Zero-shot / Few-shot / Many-shot
روشهای مختلف استفاده از مدل بر اساس تعداد مثالهایی که توی Prompt میدی. Zero-shot: بدون هیچ مثالی — فقط دستور. Few-shot: ۲-۵ مثال — مدل الگو رو میگیره. Many-shot: دهها مثال — وقتی دقت خیلی مهمه.
Few-shot یکی از سادهترین و مؤثرترین تکنیکهای Prompt Engineering هست. به جای اینکه بگی «جواب رو اینطوری بده»، چند مثال نشون بده — مدل خیلی بهتر میفهمه چی میخوای.
Chain-of-Thought (CoT) — زنجیره فکر
تکنیکی که از مدل میخوای قبل از جواب دادن، «مرحله به مرحله فکر کنه». به جای اینکه بگی «جواب رو بده»، میگی «مرحله به مرحله استدلال کن، بعد جواب بده». این کار دقت مدل رو مخصوصاً توی مسائل ریاضی و منطقی خیلی بالا میبره.
مدلهای o-series از OpenAI و Claude با thinking mode ذاتاً Chain-of-Thought دارن — یعنی قبل از جواب دادن، «فکر» میکنن. ولی حتی بدون این مدلهای خاص، اضافه کردن «Let’s think step by step» به Prompt نتایج رو بهتر میکنه.
RLHF — یادگیری تقویتی از بازخورد انسانی
Reinforcement Learning from Human Feedback. مرحلهای که بعد از Pre-training و SFT (Supervised Fine-Tuning) انجام میشه. آدمها جوابهای مدل رو رتبهبندی میکنن (کدوم بهتره) و مدل از این بازخورد یاد میگیره «جواب خوب» چه شکلیه.
RLHF همون چیزیه که ChatGPT رو «مودب» و «مفید» کرد. بدون RLHF، مدل ممکنه جوابهای نامناسب، خطرناک یا بیربط بده. DPO (Direct Preference Optimization) یه جایگزین سادهتر و ارزونتره که توی سری Fine-tuning عملی بهش پرداختیم.
API — رابط برنامهنویسی
Application Programming Interface. راهی که از کد به مدل دسترسی پیدا میکنی. وقتی میگیم «از API مدل استفاده کن» یعنی به جای چت مستقیم، از طریق کد درخواست بفرست و جواب بگیر. API OpenAI، API Anthropic — همه اینا همینن.
API مهمه چون اتوماسیون رو ممکن میکنه. از طریق ChatGPT فقط یه نفر میتونه سوال بپرسه. از طریق API میتونی هزاران درخواست در ثانیه بفرستی. مقاله Python برای AI رو بخون اگه میخوای شروع کنی.
Tokenizer — توکنایزر
الگوریتمی که متن رو به توکنها تبدیل میکنه. هر مدل توکنایزر خودش رو داره. مثلاً توکنایزر GPT-4 ممکنه یه کلمه فارسی رو به ۳ توکن تبدیل کنه ولی توکنایزر Qwen همون کلمه رو ۲ توکن کنه. این یعنی Qwen فارسی رو «کارآمدتر» پردازش میکنه.
توکنایزر تأثیر مستقیم روی هزینه (چون قیمت بر اساس توکنه) و کیفیت داره. مدلی که فارسی رو با توکنهای کمتری encode میکنه، معمولاً فارسی رو بهتر هم میفهمه.
Benchmark — معیار سنجش
تستهای استانداردی که عملکرد مدلها رو مقایسه میکنن. مثل MMLU (دانش عمومی)، HumanEval (کدنویسی)، GSM8K (ریاضی). وقتی OpenAI میگه «GPT-5 از Claude بهتره»، منظورش روی Benchmark هاست.
ولی Benchmark ها رو با احتیاط بخون. ممکنه مدلی توی Benchmark عالی باشه ولی توی پروژه واقعی ضعیف عمل کنه — مخصوصاً وقتی زبان فارسی وسطه. بهترین تست، تست خودته روی دادههای واقعی پروژهات. از اشتباهات رایج AI، اتکای صرف به Benchmark هاست.
۵. RAG — بازیابی تقویتشده
اصطلاحات ۵۳ تا ۶۴
RAG شاید مهمترین تکنولوژی AI تجاری باشه. اگه میخوای یه محصول AI واقعی بسازی — نه یه دمو — به RAG نیاز داری. مقاله کامل RAG رو قبلاً نوشتم و سری RAG از صفر تا پروداکشن رو هم داریم. اینجا یه خلاصه از اصطلاحات کلیدیه.
RAG — Retrieval-Augmented Generation
به جای اینکه مدل همه چیز رو حفظ باشه، اطلاعات لازم رو همون لحظه پیداش کن و بذار جلوش. سه مرحله داره: Retrieval (بازیابی اطلاعات مرتبط)، Augmentation (اضافه کردن به Prompt)، Generation (مدل با این اطلاعات جواب میسازه).
تشبیه ساده: مثل یه دکتر باهوش که حافظه نداره ولی پرونده بیمار رو هر بار جلوش میذاری. دکتر دانش پزشکی داره (= مدل زبانی)، پرونده اطلاعات بیمار رو داره (= دادههای بازیابیشده)، و ترکیبشون تشخیص درست میده (= جواب نهایی). مقاله کامل RAG رو حتماً بخون.
Vector Database — پایگاه داده برداری
دیتابیسی که برای ذخیره و جستجوی سریع Embedding ها بهینه شده. برخلاف دیتابیس معمولی (مثل MySQL) که جستجوی دقیق کلمهای میکنه، Vector DB میتونه «نزدیکترین بردارها» رو پیدا کنه — یعنی جستجوی معنایی.
محبوبترینها: Qdrant (اوپنسورس، سریع)، Chroma (ساده، مناسب شروع)، Pinecone (مدیریتشده)، pgvector (اگه از PostgreSQL استفاده میکنی). مقاله Vector Database رو بخون برای انتخاب بهترین گزینه.
Chunking — تکهتکه کردن
فرایند تقسیم اسناد بزرگ به قطعات کوچکتر برای ذخیره در Vector DB. نحوه Chunking مستقیماً روی کیفیت RAG تأثیر داره. اگه تکهها خیلی کوچیک باشن، Context ناکافیه. خیلی بزرگ؟ نویز زیاد.
روشهای مختلف: Fixed Size (هر ۵۰۰ کاراکتر)، Recursive (بر اساس مرزهای طبیعی متن)، Semantic (بر اساس تغییر موضوع)، Document-based (بر اساس ساختار سند). قاعده سرانگشتی: ۲۰۰ تا ۱۰۰۰ توکن با Overlap حدود ۵۰ توکن.
Cosine Similarity — شباهت کسینوسی
رایجترین روش اندازهگیری شباهت بین دو بردار. عددی بین ۰ و ۱ میده. ۱ یعنی کاملاً مشابه، ۰ یعنی هیچ شباهتی ندارن. وقتی توی RAG دنبال «نزدیکترین» بردار میگردی، معمولاً داری Cosine Similarity محاسبه میکنی.
چرا Cosine و نه فاصله معمولی (Euclidean)؟ چون Cosine به «جهت» بردار نگاه میکنه نه «اندازه»اش. دو جمله که معنای مشابه دارن ولی طول متفاوت، Cosine Similarity بالایی دارن ولی فاصله Euclideanشون ممکنه زیاد باشه.
Semantic Search — جستجوی معنایی
جستجو بر اساس معنا، نه کلمه. اگه کاربر بپرسه «چطور محصول رو پس بدم؟» و توی مستنداتت نوشته «نحوه مرجوع کالا»، جستجوی کلمهای این دو رو وصل نمیکنه. ولی Semantic Search میفهمه اینا معنای مشابه دارن.
Semantic Search ترکیب Embedding + Vector Search هست. متن سوال رو Embed میکنی و توی Vector DB دنبال نزدیکترین بردارها میگردی. این اساس Retrieval توی RAG هست.
Hybrid Search — جستجوی ترکیبی
ترکیب جستجوی کلمهای (مثل BM25) با Semantic Search. هر کدوم تنهایی ضعفهایی دارن: کلمهای معنا رو نمیفهمه، معنایی گاهی کلمات دقیق رو از دست میده. ترکیبشون معمولاً از هر کدوم تنهایی بهتره.
مثلاً اگه کاربر بپرسه «قیمت iPhone 15 Pro Max»، جستجوی معنایی ممکنه نتایج عمومی درباره گوشی بیاره، ولی جستجوی کلمهای «iPhone 15 Pro Max» رو دقیق پیدا میکنه. Hybrid Search هر دو رو ترکیب میکنه.
Re-ranking — رتبهبندی مجدد
بعد از اینکه مرحله اول جستجو ۲۰-۳۰ نتیجه آورد، یه مدل دیگه اون نتایج رو دوباره رتبهبندی میکنه. Re-ranker ها معمولاً دقیقترن ولی کندترن — به همین دلیل فقط روی نتایج اولیه اجرا میشن نه کل دیتابیس.
Cohere Reranker و BGE-Reranker از محبوبترینها هستن. اضافه کردن Re-ranking به pipeline RAG تأثیر قابل توجهی روی کیفیت نتایج داره.
Metadata — فراداده
اطلاعات اضافی که همراه هر chunk ذخیره میشه: منبع، تاریخ، نویسنده، دستهبندی. Metadata خیلی مهمه چون بهت اجازه میده جستجو رو فیلتر کنی. مثلاً «فقط از مستندات ۲۰۲۶ جستجو کن» یا «فقط از بخش فنی».
بدون Metadata خوب، RAG کور عمل میکنه. Metadata به مدل کمک میکنه منبع جواب رو هم نشون بده (Citation) — که برای اعتماد کاربر خیلی مهمه.
Indexing — فهرستسازی
مرحله آمادهسازی دادهها برای RAG. شامل: جمعآوری اسناد، Chunking، تبدیل به Embedding و ذخیره در Vector Database. این مرحله یکبار انجام میشه (و هر وقت داده جدید اضافه شد، آپدیت میشه).
کیفیت Indexing مستقیماً روی کیفیت Retrieval تأثیر داره. اگه Indexing بد انجام بشه، هر چقدر هم مدل خوب باشه، جوابها ضعیفن. Garbage in, garbage out — اینجا هم صدق میکنه.
Citation — استناد
نشون دادن منبع جواب به کاربر. مثلاً «طبق سند X، سیاست مرجوعی ۷ روزهست.» Citation اعتماد کاربر رو بالا میبره و امکان بررسی جواب رو فراهم میکنه. توی RAG، Citation از Metadata مرحله Retrieval استخراج میشه.
بدون Citation، کاربر نمیدونه جواب از کجا اومده و نمیتونه بهش اعتماد کنه. مخصوصاً توی حوزههای حساس (پزشکی، حقوقی، مالی) Citation الزامیه.
Grounding — مبنادهی
فرایند «زمینگیر» کردن مدل با واقعیت. بدون Grounding، مدل ممکنه Hallucination داشته باشه. RAG اصلیترین روش Grounding هست — با دادن اطلاعات واقعی به مدل، جلوی مندرآوردی حرف زدنش رو میگیری.
Grounding فقط RAG نیست. شامل اتصال به API های خارجی (مثل دیتابیس لحظهای قیمت)، ابزارها (مثل ماشین حساب) و هر چیزی هست که مدل رو «به واقعیت متصل» کنه.
Query Expansion — گسترش پرسش
تکنیکی برای بهبود Retrieval. سوال کاربر رو قبل از جستجو بازنویسی یا گسترش میدی. مثلاً «مرجوعی» رو تبدیل میکنی به «مرجوعی OR بازگشت کالا OR استرداد» تا نتایج بیشتری پیدا بشه.
میتونی از خود LLM هم برای Query Expansion استفاده کنی. بگی «این سوال رو ۳ شکل مختلف بازنویسی کن» و بعد همه رو جستجو کنی. Multi-step RAG هم مشابهه — اول یه جواب اولیه بساز، بعد بر اساسش دوباره جستجو کن.
۶. Fine-tuning — تنظیم دقیق
اصطلاحات ۶۵ تا ۷۶
Fine-tuning یعنی گرفتن یه مدل آماده و تخصصی کردنش برای کار خودت. این بخش اصطلاحات تخصصیترن ولی اگه قصد داری مدل رو برای پروژهات سفارشی کنی، باید بشناسیشون. سری Fine-tuning عملی همه اینا رو با جزئیات پوشش میده.
Full Fine-tuning — تنظیم کامل
همه پارامترهای مدل رو آموزش میدی. دقیقترین روشه ولی سنگینترین هم هست. برای یه مدل ۷B، به حداقل ۸۰ گیگ VRAM نیاز داری (چون علاوه بر وزنها، gradient ها و optimizer state هم باید توی حافظه بمونن).
Full Fine-tuning بهترین نتیجه رو میده ولی اکثر مردم ازش استفاده نمیکنن چون LoRA و QLoRA کیفیت نزدیکی با منابع خیلی کمتر میدن.
LoRA — Low-Rank Adaptation
به جای آموزش همه پارامترها، فقط ماتریسهای کوچکی (rank پایین) اضافه میکنه و اونا رو آموزش میده. مثل اینکه به جای بازنویسی کل کتاب، فقط حاشیهنویسی کنی. حجم آموزش بسیار کمتره (معمولاً ۱-۲٪ پارامترها) ولی نتیجه خیلی نزدیک به Full Fine-tuning هست.
LoRA انقلاب Fine-tuning بود. قبلش فقط شرکتهای بزرگ میتونستن مدل رو Fine-tune کنن. الان با یه GPU معمولی هم میشه.
QLoRA — LoRA + Quantization
ترکیب LoRA با Quantization. مدل رو با دقت ۴ بیت بارگذاری میکنی (خیلی کمتر حافظه) و بعد LoRA رو روش اعمال میکنی. نتیجه: میتونی مدل ۷B رو با فقط ۶ گیگ VRAM (یه کارت گرافیک معمولی) Fine-tune کنی.
QLoRA عملاً Fine-tuning رو برای همه دموکراتیک کرد. سری Fine-tuning عملی ما بیشتر از QLoRA استفاده میکنه.
SFT — Supervised Fine-Tuning
مرحلهای از آموزش مدل که بعد از Pre-training و قبل از RLHF انجام میشه. مدل روی نمونههایی از «سوال + جواب خوب» آموزش میبینه. مثلاً: «سوال: ایران کجاست؟ جواب: ایران کشوری در خاورمیانهست…»
SFT همون چیزیه که مدل رو از یه «تکمیلکننده متن» به یه «دستیار مفید» تبدیل میکنه. بدون SFT، مدل فقط متن ادامه میده — ممکنه سوالت رو ادامه بده به جای اینکه جوابش بده.
DPO — Direct Preference Optimization
جایگزین سادهتر RLHF. به جای آموزش یه مدل reward جدا (که RLHF نیاز داره)، DPO مستقیماً از جفتهای «جواب خوب + جواب بد» یاد میگیره. سادهتر پیادهسازی میشه و نتایج مشابهی هم میده.
در پروژههای Fine-tuning، DPO معمولاً بعد از SFT استفاده میشه. مدل رو اول با SFT یاد میدی جواب بده، بعد با DPO یاد میدی «جواب خوب» چه شکلیه.
Adapter — آداپتور
لایههای کوچکی که به مدل اصلی اضافه میشن بدون تغییر خود مدل. LoRA یه نوع Adapter هست. مزیت بزرگ Adapter ها: یه مدل پایه داری و میتونی چند تا Adapter مختلف روش سوار کنی — مثلاً یکی برای فارسی، یکی برای کدنویسی، یکی برای پشتیبانی مشتری.
Adapter ها مثل عینک هستن. مدل اصلی چشمهاته، Adapter عینکه — عوضش کن و دید متفاوتی داری. خود چشم عوض نمیشه.
Epoch — دور
یه بار دیدن کل Dataset توسط مدل = یه Epoch. معمولاً Fine-tuning با ۱-۳ Epoch انجام میشه. خیلی بیشتر؟ مدل Overfit میکنه. خیلی کمتر؟ کافی یاد نمیگیره.
تعداد Epoch بهینه بسته به اندازه Dataset و پیچیدگی کار فرق داره. بهترین روش: Training Loss رو مانیتور کن — وقتی دیگه کم نمیشه یا Validation Loss بالا میره، کافیه.
Gradient — شیب
جهت و میزان تغییری که هر پارامتر باید بکنه تا خطای مدل کم بشه. Backpropagation gradient ها رو حساب میکنه و Optimizer ازشون استفاده میکنه تا پارامترها رو آپدیت کنه. اگه Learning Rate اندازه قدمه، Gradient جهت قدمه.
مشکل رایج: Gradient Vanishing (شیب خیلی کوچیک — مدل یاد نمیگیره) و Gradient Exploding (شیب خیلی بزرگ — مدل ناپایدار میشه). تکنیکهایی مثل Gradient Clipping و Normalization این مشکلات رو حل میکنن.
Loss Function — تابع هزینه
عددی که نشون میده مدل «چقدر اشتباه» داره. هدف Training: کم کردن Loss. وقتی Loss پایین میاد، مدل داره بهتر میشه. اگه Loss پایین نمیاد، یه جای کار مشکل داره — Dataset، Learning Rate یا معماری.
توی Fine-tuning، Loss رو هم برای Training Set و هم برای Validation Set مانیتور میکنی. اگه Training Loss پایین بیاد ولی Validation Loss بالا بره، مدل داره Overfit میکنه.
Batch Size — اندازه دسته
تعداد نمونههایی که مدل همزمان میبینه قبل از آپدیت وزنها. Batch Size بزرگتر = آموزش پایدارتر ولی حافظه بیشتر. Batch Size کوچکتر = حافظه کمتر ولی آموزش نویزیتر.
وقتی GPU محدود داری، از Gradient Accumulation استفاده میکنی — چند Batch کوچیک رو جمع میکنی و بعد آپدیت میکنی. اثرش مثل یه Batch بزرگه ولی حافظه کمتری مصرف میکنه.
Unsloth — ابزار Fine-tuning سریع
کتابخانهای که Fine-tuning رو تا ۲ برابر سریعتر و با ۶۰٪ حافظه کمتر انجام میده. بهینهسازیهای خاصی روی Transformer architecture اعمال میکنه. مخصوصاً برای QLoRA عالیه.
Unsloth مناسب کساییه که GPU محدود دارن (مثلاً T4 رایگان Google Colab). سری Fine-tuning عملی ما از Unsloth استفاده میکنه.
Catastrophic Forgetting — فراموشی فاجعهبار
وقتی Fine-tuning رو زیادهروی کنی، مدل دانش قبلیش رو فراموش میکنه. مثلاً مدل رو برای فارسی Fine-tune کنی و دیگه انگلیسی یادش بره! راهحل: Learning Rate پایین، تعداد Epoch کم، و استفاده از LoRA (که پارامترهای اصلی رو تغییر نمیده).
Catastrophic Forgetting یکی از دلایلیه که LoRA محبوب شد. چون وزنهای اصلی مدل دستنخورده میمونن و فقط Adapter های اضافهشده تغییر میکنن.
۷. Agent — عامل هوشمند
اصطلاحات ۷۷ تا ۸۶
Agent ها داغترین موضوع AI در ۲۰۲۵-۲۰۲۶ هستن. یه Agent فقط جواب نمیده — تصمیم میگیره و عمل میکنه. پروژه شما در واقع یه Agent هست، نه یه چتبات ساده. سری ساخت AI Agent همه جزئیات رو پوشش میده.
Agent — عامل
یه LLM که میتونه تصمیم بگیره و عمل کنه، نه فقط جواب بده. مثلاً Agent میتونه تصمیم بگیره «الان باید به دیتابیس بزنم»، «باید این کار رو انجام بدم»، «باید به کاربر پیام بدم». تفاوتش با چتبات: چتبات فقط جواب میده، Agent تصمیم میگیره و اجرا میکنه.
Agent ها میتونن از ابزارها (Tools) استفاده کنن، حافظه داشته باشن، و کارهای چندمرحلهای انجام بدن. سری ساخت AI Agent رو ببین برای یادگیری عملی.
Agent Loop — حلقه عامل
الگوی اصلی عملکرد Agent. یه چرخه تکراری: «فکر کن (Reason) → تصمیم بگیر (Act) → نتیجه رو ببین (Observe) → دوباره فکر کن». Agent این حلقه رو تکرار میکنه تا کار رو کامل کنه یا جواب نهایی رو بده.
مثلاً Agent وقتی سوالی میپرسه: اول فکر میکنه «باید توی دیتابیس جستجو کنم»، بعد ابزار جستجو رو صدا میزنه، نتیجه رو میبینه، تصمیم میگیره کافیه یا نه، و اگه نه دوباره عمل میکنه.
Tool Use / Function Calling — استفاده از ابزار
قابلیت LLM برای صدا زدن ابزارهای خارجی. مثلاً مدل تصمیم میگیره «باید آبوهوا رو چک کنم» و تابع get_weather() رو صدا میزنه. بعد نتیجه رو میگیره و جواب میده. مدلهای مدرن (GPT-5, Claude, Qwen) این قابلیت رو دارن.
Tool Use همون چیزیه که Agent رو از چتبات جدا میکنه. بدون Tool Use، مدل فقط میتونه حرف بزنه. با Tool Use، میتونه کار انجام بده — جستجو کنه، محاسبه کنه، API صدا بزنه، ایمیل بفرسته.
MCP — Model Context Protocol
پروتکلی که Anthropic معرفی کرد برای استانداردسازی اتصال LLM ها به ابزارها و منابع داده. قبل از MCP، هر شرکت روش خودش رو داشت. MCP یه استاندارد مشترکه — مثل USB برای دستگاهها، MCP برای AI Tools هست.
MCP هنوز جدیده ولی داره به سرعت پذیرفته میشه. اگه میخوای Agent بسازی، آشنایی با MCP مفیده.
Memory — حافظه Agent
Agent ها بدون حافظه، هر بار از صفر شروع میکنن (مثل ماهی قرمز). حافظه دو نوعه: Short-term Memory (تاریخچه همین گفتگو، محدود به Context Window) و Long-term Memory (اطلاعاتی که بین جلسات مختلف ذخیره میشه، معمولاً توی دیتابیس).
پیادهسازی Long-term Memory یکی از چالشهای اصلی ساخت Agent هاست. باید بدونی چی رو ذخیره کنی، کِی فراموش کنی، و چطور بازیابی کنی.
Planning — برنامهریزی
توانایی Agent برای شکستن یه کار بزرگ به مراحل کوچکتر. مثلاً «یه گزارش تحلیلی بنویس» رو بشکنه به: ۱) دادهها رو جمع کن ۲) تحلیل کن ۳) نمودار بساز ۴) گزارش بنویس. LLM های قویتر Planning بهتری دارن.
Planning یکی از سختترین بخشهای ساخت Agent هست. مدل ممکنه برنامهریزی بد کنه — مراحل رو جا بندازه، ترتیب اشتباه بذاره، یا درحلقه گیر کنه. به همین دلیل Agent های خوب باید «خودنقد» باشن و برنامهشون رو ارزیابی کنن.
Multi-Agent — چند عامل
سیستمی که چند Agent با هم کار میکنن. مثلاً یه Agent «نویسنده» پیشنویس مینویسه، Agent «ویرایشگر» بررسی میکنه، و Agent «ناقد» نقد میکنه. هر کدوم تخصص خودشون رو دارن و با هم نتیجه بهتری تولید میکنن.
Multi-Agent هنوز تجربیه و پیچیدگیهای خودش رو داره (هماهنگی، هزینه، دیباگ). ولی برای کارهای پیچیده نتایج خیلی بهتری از تک Agent میده.
Human-in-the-Loop — انسان در حلقه
طراحی سیستم به شکلی که انسان در نقاط حساس تأیید کنه. Agent قبل از ارسال ایمیل، تأیید بگیره. قبل از خرید، تأیید بگیره. این مدل «نیمهخودکار» برای اکثر پروژههای واقعی بهینهترین رویکرده — مخصوصاً وقتی ریسک تصمیم بالاست.
Human-in-the-Loop فقط درباره Agent نیست. توی Fine-tuning هم وقتی انسانها جوابها رو بررسی و اصلاح میکنن، Human-in-the-Loop هست. توی RAG هم وقتی کاربر بازخورد «جواب مفید بود/نبود» میده.
Guardrails — محافظها
مکانیزمهایی برای محدود کردن رفتار Agent/LLM. مثلاً: «هرگز اطلاعات مالی توصیه نکن»، «حداکثر ۳ بار API رو صدا بزن»، «اگه مطمئن نیستی، بپرس». Guardrails هم توی System Prompt (نرم) و هم توی کد (سخت) پیادهسازی میشن.
بدون Guardrails، Agent ممکنه کارهای غیرمنتظره بکنه — حلقه بینهایت بره، هزینه زیادی تولید کنه، یا جواب نامناسب بده. هر Agent باید حداقل محدودیت تعداد مراحل و timeout داشته باشه.
Orchestration — ارکستراسیون
مدیریت و هماهنگی جریان کار بین LLM، ابزارها، دادهها و API ها. فریمورکهایی مثل LangChain، LlamaIndex و CrewAI ابزارهای Orchestration هستن. اونا به تو کمک میکنن بدون نوشتن همه چیز از صفر، pipeline های AI بسازی.
Orchestration مهمه ولی زیاد وابسته فریمورک نشو. فهمیدن مفاهیم مهمتر از فریمورکه — فریمورکها عوض میشن، مفاهیم میمونن.
۸. معماری و زیرساخت
اصطلاحات ۸۷ تا ۹۶
تا اینجا مفاهیم و مدلها و تکنیکها رو شناختی. ولی همه اینا روی سختافزار و زیرساخت اجرا میشن. این بخش اصطلاحاتی رو پوشش میده که وقتی از «اجرای مدل» صحبت میشه، باید بدونی. نگران نباش — قرار نیست مهندس زیرساخت بشی، فقط بدونی اصطلاحات چی هستن.
GPU — واحد پردازش گرافیکی
Graphics Processing Unit. اصلاً برای بازی و گرافیک ساخته شد ولی معلوم شد برای محاسبات موازی (مثل آموزش شبکه عصبی) فوقالعادهست. NVIDIA رهبر بلامنازع GPU های AI هست. کارتهای سری A100، H100 و H200 استانداردهای صنعتی هستن.
چرا GPU و نه CPU؟ چون GPU هزاران هسته کوچک داره که همزمان کار میکنن. آموزش شبکه عصبی میلیاردها ضرب ماتریسی نیاز داره — GPU این کار رو هزاران برابر سریعتر از CPU انجام میده.
VRAM — حافظه GPU
Video RAM. حافظه اختصاصی GPU. وقتی میگیم «این مدل ۲۴ گیگ VRAM نیاز داره» یعنی باید کارت گرافیکی با حداقل ۲۴ گیگ حافظه داشته باشی. VRAM معمولاً گلوگاهه — نه سرعت GPU بلکه حافظهاش محدودکنندهست.
کارتهای مصرفی (مثل RTX 4090) حداکثر ۲۴ گیگ VRAM دارن. کارتهای سرور (مثل A100) تا ۸۰ گیگ. به همین دلیل Quantization خیلی مهمه — مدل رو کوچکتر میکنه تا توی VRAM جا بشه.
Latency و Throughput
Latency: زمانی که طول میکشه تا اولین توکن جواب بیاد (Time to First Token). کاربر نباید زیاد منتظر بمونه. Throughput: تعداد توکنهایی که در ثانیه تولید میشن. هر دو مهمن ولی بسته به کاربرد، یکی اولویت داره.
برای چتبات، Latency مهمتره (کاربر نباید ۵ ثانیه منتظر بمونه). برای پردازش دستهای (مثل تحلیل هزار ایمیل)، Throughput مهمتره.
Model Serving — سرو مدل
پروسه اجرای مدل و ارائهاش به عنوان سرویس (معمولاً API). ابزارهایی مثل vLLM (محبوبترین)، TGI (HuggingFace)، و Ollama (سادهترین برای لوکال) برای این کار ساخته شدن.
Ollama مناسب آزمایش لوکاله — با یه دستور مدل رو دانلود و اجرا میکنه. برای Production، vLLM بهتره چون بهینهسازیهای زیادی داره (مثل Continuous Batching و PagedAttention).
Edge AI — هوش مصنوعی لبهای
اجرای مدل AI روی دستگاه کاربر (موبایل، IoT، لپتاپ) به جای Cloud. مزیتها: سرعت بالا (بدون تأخیر شبکه)، حریم خصوصی (داده از دستگاه خارج نمیشه)، و کار بدون اینترنت. محدودیت: قدرت محاسباتی محدود.
Apple Intelligence روی iPhone یه مثال Edge AI هست. مدلهای کوچک (3B-7B) با Quantization میتونن روی گوشی اجرا بشن. روند بازار به سمت ترکیب Edge + Cloud هست.
MoE — Mixture of Experts
معماریای که مدل رو به چند «متخصص» (Expert) تقسیم میکنه. برای هر ورودی، فقط یکی-دوتا متخصص فعال میشن (نه همه). نتیجه: مدل خیلی بزرگ میشه (مثلاً ۱.۶T پارامتر مثل DeepSeek V4) ولی هر بار فقط بخش کوچکی فعاله — پس سرعتش مثل مدلهای کوچکتره.
MoE ایدهای هست که بهترینها ازش استفاده میکنن. GPT-4 هم احتمالاً MoE هست (OpenAI تأیید نکرده ولی شواهد قوی وجود داره).
Distillation — تقطیر مدل
فرایند ساخت مدل کوچک از مدل بزرگ. مدل بزرگ (Teacher) جوابها رو تولید میکنه و مدل کوچک (Student) یاد میگیره مثل استاد جواب بده. نتیجه: مدلی کوچکتر و سریعتر که کیفیتش نزدیک مدل بزرگه.
خیلی از مدلهای کوچک محبوب (مثل Phi و Gemma) با Distillation ساخته شدن. اگه میخوای مدل سریع و ارزون داشته باشی، Distillation یه گزینهست.
GGUF — فرمت مدل
فرمت فایل برای ذخیره مدلهای Quantized شده. llama.cpp و Ollama از GGUF استفاده میکنن. وقتی توی HuggingFace دنبال مدل میگردی و «GGUF» میبینی، یعنی اون مدل آماده اجرای لوکاله.
GGUF جایگزین فرمت قبلی GGML هست. مزیتش: فایل واحد، سادهترین راه اجرای مدل روی CPU یا GPU محدود.
Scaling Laws — قوانین مقیاس
کشف مهمی که نشون میده عملکرد مدل به شکل قابل پیشبینی با افزایش سه چیز بهتر میشه: اندازه مدل (بیشتر پارامتر)، حجم داده (بیشتر Training Data)، و محاسبات (بیشتر GPU ساعت). این قوانین توسط OpenAI و DeepMind کشف شدن.
Scaling Laws دلیلیه که شرکتها مدلهای بزرگتر و بزرگتر میسازن — چون میدونن بزرگتر = بهتر (تا حدی). البته «تا حدی» مهمه — ممکنه در آینده به سقفی برسیم.
HuggingFace — هاب مدلها
بزرگترین پلتفرم اشتراکگذاری مدلها، Dataset ها و ابزارهای AI. مثل GitHub برای کد، HuggingFace برای مدلها و دادههاست. تقریباً هر مدل اوپنسورسی رو اینجا پیدا میکنی.
HuggingFace همچنین کتابخانه transformers رو میسازه — مهمترین کتابخانه Python برای کار با مدلهای AI. اگه با مدلهای اوپنسورس کار میکنی، HuggingFace خونه دومته.
۹. کسبوکار و کاربرد
اصطلاحات ۹۷ تا ۱۰۸
آخرین بخش فرهنگ لغت هوش مصنوعی، ولی شاید مهمترین برای خیلی از شما. اصطلاحاتی که وقتی AI رو وارد کسبوکار واقعی میکنی باید بدونی. اگه مدیر هستی، این بخش رو دو بار بخون. سری AI برای مدیران هم برات نوشتم.
AI Readiness — آمادگی AI
ارزیابی اینکه سازمان تو چقدر آماده پیادهسازی AI هست. شامل: کیفیت دادهها، زیرساخت فنی، مهارت تیم، فرهنگ سازمانی و بودجه. خیلی از پروژههای AI شکست میخورن نه به خاطر تکنولوژی، بلکه به خاطر عدم آمادگی سازمان.
قبل از شروع هر پروژه AI، یه ارزیابی AI Readiness انجام بده. اگه دادههات توی اکسلهای پراکندهست و تیمت با API آشنا نیست، اول زیرساخت رو درست کن. مقاله «چرا هر کسبوکاری به AI نیاز نداره» این موضوع رو مفصل بررسی میکنه.
POC — Proof of Concept
یه پروژه کوچک آزمایشی برای اثبات اینکه ایده عملی هست. قبل از اینکه ۶ ماه و میلیونها تومان خرج کنی، یه POC بساز. ۲-۴ هفته، scope محدود، هدف مشخص: «آیا AI میتونه این مشکل رو حل کنه؟»
خیلی از پروژههای AI باید اول POC بشن. مثلاً قبل از ساخت سیستم پشتیبانی AI کامل، یه POC بساز که فقط ۱۰ تا سوال متداول رو جواب بده. اگه نتیجه خوب بود، بزرگش کن.
Use Case — مورد استفاده
یه سناریوی مشخص که AI قراره حلش کنه. «پشتیبانی مشتری» Use Case نیست — خیلی کلیه. «پاسخگویی خودکار به ۲۰ سوال متداول درباره مرجوعی کالا» Use Case خوبیه — مشخص، محدود و قابل اندازهگیری.
تعریف Use Case خوب مهمترین قدم اول هر پروژه AI هست. Use Case مبهم = پروژه شکستخورده. Use Case مشخص = شانس موفقیت بالا.
Vendor Lock-in — وابستگی به تأمینکننده
وقتی کل سیستمت وابسته به یه شرکت خاص بشه و نتونی راحت عوضش کنی. مثلاً اگه همه چیزت رو روی OpenAI API بسازی و یه روز قیمتها ۱۰ برابر بشه یا سرویس قطع بشه، گیر میکنی.
راهحل: معماری رو طوری طراحی کن که تعویض مدل آسون باشه. از abstraction layer استفاده کن. بخشی از سیستم رو با مدلهای open-source اجرا کن. تخممرغهات رو توی یه سبد نذار.
TCO — Total Cost of Ownership
هزینه واقعی و کامل پروژه AI. فقط هزینه API نیست. شامل: توسعه، نگهداری، زیرساخت، مانیتورینگ، آپدیت دادهها، آموزش تیم و پشتیبانی. خیلی از مدیرها فقط هزینه API رو میبینن و بعداً شوکه میشن.
یه مثال: هزینه API ماهانه ممکنه ۵۰۰ دلار باشه، ولی توسعهدهندهای که باید نگهداری کنه ماهانه ۳۰۰۰ دلار هزینه داره. TCO واقعی ۷ برابر هزینه API هست. سری AI برای مدیران این رو مفصل بررسی میکنه.
ROI — بازگشت سرمایه
Return on Investment. چقدر سود از سرمایهگذاری AI برگشته؟ محاسبه ROI برای AI سخته چون بخشی از مزایا کیفیه (رضایت مشتری، سرعت) و قابل اندازهگیری مستقیم نیست.
توصیه: قبل از شروع، معیارهای موفقیت (KPI) رو مشخص کن. مثلاً: «زمان پاسخگویی از ۲۴ ساعت به ۲ دقیقه کاهش پیدا کنه» یا «۳۰٪ تماسها بدون نیاز به اپراتور پاسخ داده بشن». اینا رو بعداً اندازه بگیر.
MVP — حداقل محصول قابل عرضه
Minimum Viable Product. سادهترین نسخهای از محصول AI که واقعاً کار میکنه و میشه به کاربر نشون داد. بعد از POC (اثبات مفهوم)، MVP مرحله بعدیه — یه محصول واقعی ولی با حداقل امکانات.
MVP برای AI مخصوصاً مهمه چون رفتار سیستم رو با کاربران واقعی میبینی. ممکنه توی تست داخلی عالی کار کنه ولی کاربران واقعی سوالاتی بپرسن که پیشبینی نکرده بودی.
Deployment — استقرار
رسوندن مدل از محیط توسعه به محیط واقعی (Production). شامل: انتخاب زیرساخت، بهینهسازی سرعت، مانیتورینگ، مدیریت خطا و بروزرسانی. خیلی از پروژههای AI توی Deployment شکست میخورن — نه توی ساخت.
Deployment فقط «آپلود کردن کد» نیست. باید Latency قابل قبول باشه، هزینه منطقی باشه، و سیستم باید بدون توقف ۲۴/۷ کار کنه. مانیتورینگ مدل هم مهمه — عملکرد مدل ممکنه با گذشت زمان افت کنه (Model Drift).
Model Drift — تغییر عملکرد مدل
وقتی عملکرد مدل با گذشت زمان بدتر میشه. چرا؟ چون دنیا عوض میشه. محصولات جدید میان، قیمتها تغییر میکنن، رفتار مشتریها عوض میشه. مدلی که ۶ ماه پیش عالی بود، ممکنه الان ضعیف عمل کنه.
راهحل: مانیتورینگ مداوم + بروزرسانی دورهای دادهها. مخصوصاً توی RAG، دادهها باید مرتب آپدیت بشن.
Responsible AI — هوش مصنوعی مسئولانه
مجموعه اصولی برای توسعه اخلاقی AI: شفافیت (چرا این تصمیم رو گرفتی؟)، عدالت (Bias نداشته باشه)، حریم خصوصی (داده کاربر محفوظه)، و پاسخگویی (کسی مسئول خروجی مدله). مخصوصاً وقتی AI درباره آدمها تصمیم میگیره مهمه.
قوانین AI در اروپا (AI Act) و سایر کشورها داره سختتر میشه. هرچه زودتر Responsible AI رو جدی بگیری، بهتره.
Bias — تعصب
وقتی مدل نسبت به گروهی تبعیض داره. Bias معمولاً از داده آموزشی میاد — اگه دادهها متعصبانه باشن، مدل هم متعصب میشه. مثلاً مدلی که بیشتر روی متن انگلیسی آموزش دیده، ممکنه فارسی رو بدتر بفهمه — این یه نوع Bias زبانیه.
Bias فقط نژادی و جنسیتی نیست. ممکنه جغرافیایی، زبانی، اقتصادی یا فرهنگی باشه. توی پروژههای ایرانی، Bias مدل نسبت به زبان و فرهنگ فارسی یکی از چالشهای جدیه.
Tokens per Dollar — اقتصاد توکن
معیاری برای مقایسه هزینه مدلها. مثلاً GPT-5 ممکنه هر ۱ میلیون توکن ورودی ۱۰ دلار باشه ولی Claude Sonnet ۳ دلار. ولی فقط قیمت مهم نیست — کیفیت خروجی، سرعت و Context Window هم مهمه.
قیمتها دائماً پایین میاد. سال ۲۰۲۳ هزینه ۱ میلیون توکن حدود ۶۰ دلار بود، الان ممکنه ۳ دلار باشه. این روند ادامه داره و AI هر ماه ارزونتر میشه — برای کسبوکارها خبر خوبیه.
جمعبندی
این فرهنگ لغت هوش مصنوعی با بیش از ۱۰۰ اصطلاح، یه مرجع کامل برای ورود به دنیای AI هست. از پایهایترین مفاهیم مثل Machine Learning و Neural Network شروع کردیم، رفتیم سراغ LLM ها و مدلهای معروف، تکنیکها رو شناختیم، RAG و Fine-tuning و Agent رو یاد گرفتیم، و با مفاهیم کسبوکاری تموم کردیم.
یه چیزی رو فراموش نکن: دونستن اصطلاحات فقط شروعه. مهم اینه که دستهات رو کثیف کنی و عملی کار کنی. یه RAG ساده بساز. یه مدل رو Fine-tune کن. یه Agent ساده بساز. هر کدوم از این کارها دهها برابر بیشتر از خوندن بهت یاد میده.
اگه از این مطلب خوشت اومد، سریهای آموزشی رو هم ببین:
- از صفر تا متخصص توسعه AI — برای توسعهدهندهها
- RAG از صفر تا پروداکشن — عمیقترین آموزش RAG فارسی
- AI برای مدیران — بدون کد، فقط مفاهیم و استراتژی
- ساخت AI Agent — از Agent ساده تا Multi-Agent
- Fine-tuning عملی — LoRA، QLoRA، DPO با جزئیات
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید