فرهنگ لغت هوش مصنوعی — همه اصطلاحات AI که باید بدونی

دنیای هوش مصنوعی پر از اصطلاحات انگلیسیه که اگه معنی‌شون رو ندونی، خیلی زود گیج می‌شی. فرقی نداره مدیر کسب‌وکار باشی یا توسعه‌دهنده — هر جا که بحث AI وسط میاد، یه عالمه واژه تخصصی داره. این فرهنگ لغت هوش مصنوعی رو نوشتم تا یه مرجع کامل و همیشه در دسترس باشه. بیش از ۱۰۰ اصطلاح رو اینجا جمع کردم، از ساده‌ترین مفاهیم تا پیشرفته‌ترین تکنیک‌ها. ترتیب اصطلاحات هم آموزشیه — یعنی اگه از بالا شروع کنی و تا آخر بخونی، یه نقشه ذهنی کامل از دنیای AI پیدا می‌کنی.

هر اصطلاح رو ساده و خودمونی توضیح دادم. جایی که لازم بوده تشبیه زدم، مثال آوردم و سعی کردم ارتباطش رو با بقیه مفاهیم نشون بدم. اگه قبلاً مقالات RAG چیست یا راهنمای Prompt Engineering رو خوندی، این فرهنگ لغت هوش مصنوعی مکمل عالی‌شونه. و اگه تازه شروع کردی، همینجا بهترین نقطه شروعه.

نکته

این صفحه رو بوکمارک کن. هر وقت جایی یه اصطلاح ناآشنا دیدی، برگرد اینجا. فرهنگ لغت هوش مصنوعی به‌مرور آپدیت می‌شه و اصطلاحات جدید بهش اضافه می‌شه.

فهرست بخش‌ها

پایه‌ای‌ترین مفاهیم — اصطلاحات ۱ تا ۱۵
مدل‌های زبانی — اصطلاحات ۱۶ تا ۲۷
مدل‌های معروف — اصطلاحات ۲۸ تا ۳۷
تکنیک‌ها و مفاهیم کلیدی — اصطلاحات ۳۸ تا ۵۲
RAG — اصطلاحات ۵۳ تا ۶۴
Fine-tuning — اصطلاحات ۶۵ تا ۷۶
Agent — اصطلاحات ۷۷ تا ۸۶
معماری و زیرساخت — اصطلاحات ۸۷ تا ۹۶
کسب‌وکار و کاربرد — اصطلاحات ۹۷ تا ۱۰۸

۱. پایه‌ای‌ترین مفاهیم

اصطلاحات ۱ تا ۱۵

قبل از هر چیزی، باید زبان مشترک داشته باشیم. این بخش شامل مفاهیمیه که اگه ندونی‌شون، بقیه مطالب مثل یه زبان خارجی می‌شه. نگران نباش — هیچ‌کدوم پیچیده نیستن. فقط یه بار بخون، و کل مسیر بعدی برات روشن می‌شه.

Artificial Intelligence (AI) — هوش مصنوعی

بزرگ‌ترین چتر این حوزه. هوش مصنوعی یعنی هر سیستم کامپیوتری که کاری رو انجام بده که اگه انسان انجامش می‌داد، می‌گفتیم «هوش لازم داشته». این تعریف خیلی گسترده‌ست — از یه فیلتر اسپم ایمیل ساده گرفته تا ChatGPT همه AI هستن.

نکته مهم اینه که AI یه طیف وسیعه. یه الگوریتم پیشنهاد فیلم نتفلیکس AI هست. سیستم تشخیص پلاک ماشین AI هست. Claude و GPT هم AI هستن. وقتی کسی می‌گه «من متخصص AI هستم» باید بپرسی «چه نوعش؟» — مثل اینکه کسی بگه «من پزشک هستم» و تو بپرسی «چه تخصصی؟»

Machine Learning (ML) — یادگیری ماشین

زیرمجموعه AI. به جای اینکه برنامه‌نویس قانون بنویسه، به ماشین می‌گه «خودت از روی داده‌ها قانون رو پیدا کن». فکر کن می‌خوای فیلتر اسپم بسازی. روش قدیمی: هزار تا قانون بنویسی («اگه کلمه “برنده شدی” داشت، اسپمه»). روش ML: هزار ایمیل می‌دی و می‌گی خودش الگو پیدا کنه.

انقلاب ML اینجاست که الگوریتم الگوهایی رو کشف می‌کنه که حتی به ذهن برنامه‌نویس نمی‌رسید. مثلاً ممکنه بفهمه ایمیل‌هایی که ساعت ۳ شب فرستاده می‌شن و عکس دارن، احتمال اسپم بودن‌شون بالاتره — الگویی که آدم هیچ‌وقت بهش فکر نمی‌کرد.

Deep Learning (DL) — یادگیری عمیق

زیرمجموعه ML ولی با یه تفاوت بزرگ: از شبکه‌های عصبی چندلایه استفاده می‌کنه. توی ML سنتی باید «ویژگی» (feature) داده رو دستی بسازی — مثلاً برای تشخیص گربه توی عکس، باید بگی «تعداد چشم‌ها رو بشمار، رنگ مو رو ببین». ولی Deep Learning گفت: «نه. خود مدل ویژگی‌ها رو پیدا می‌کنه. فقط داده خام (raw data) بده.»

کلمه «Deep» (عمیق) یعنی چندین لایه. شبکه‌های اولیه ۲-۳ لایه داشتن. مدل‌های مدرن ممکنه ۱۰۰+ لایه داشته باشن. هرچی عمیق‌تر، الگوهای پیچیده‌تری یاد می‌گیره. ChatGPT، Claude و همه LLM ها از همین Deep Learning استفاده می‌کنن.

Neural Network (NN) — شبکه عصبی

ساختار اصلی Deep Learning. تصور کن یه ماشین داری که چند تا «لایه» داره. هر لایه از تعدادی «گره» (node یا neuron) تشکیل شده. اطلاعات از لایه اول وارد می‌شه، توی هر لایه یه تبدیل ریاضی انجام می‌شه، و توی لایه آخر خروجی بیرون میاد.

هر اتصال بین گره‌ها یه عدد داره به اسم «وزن» (weight). وقتی مدل رو آموزش می‌دی، در واقع داری این وزن‌ها رو تنظیم می‌کنی تا خروجی درست بشه. یه مدل ۷۰ میلیارد پارامتری یعنی ۷۰ میلیارد از این وزن‌ها داره. شبکه عصبی مثل یه pipeline از function هاست — هر function ورودی می‌گیره، تبدیلش می‌کنه و می‌ده به بعدی.

Supervised Learning — یادگیری با ناظر

رایج‌ترین نوع ML. به مدل داده به همراه «جواب درست» می‌دی. مثلاً ۱۰ هزار عکس گربه و سگ با برچسب («این گربه‌ست»، «این سگه»). مدل یاد می‌گیره که چه چیزی گربه رو از سگ متمایز می‌کنه.

دو کاربرد اصلی داره: Classification (دسته‌بندی) مثل «این ایمیل اسپمه یا نه؟» و Regression (رگرسیون) مثل «قیمت این خونه چقدره؟». وقتی توی Fine-tuning می‌گیم «مدل رو روی داده‌های خودم آموزش می‌دم»، در واقع داریم Supervised Learning انجام می‌دیم.

Unsupervised Learning — یادگیری بدون ناظر

اینجا فقط داده می‌دی، بدون جواب. مدل خودش الگو پیدا می‌کنه. مثلاً به مدل داده‌های ۱۰۰ هزار مشتری رو می‌دی و می‌گه «این مشتری‌ها به ۵ گروه طبیعی تقسیم می‌شن». کسی بهش نگفته این گروه‌ها چیه — خودش کشف کرده.

دو کاربرد مهم داره: Clustering (خوشه‌بندی) مثل دسته‌بندی مشتری‌ها، و Dimensionality Reduction (کاهش بعد) مثل وقتی ۱۰۰ تا ویژگی داری و می‌خوای به ۵ تا کاهش بدی بدون از دست دادن اطلاعات.

Reinforcement Learning (RL) — یادگیری تقویتی

مدل توی یه محیط قرار می‌گیره و کار می‌کنه. اگه خوب کار کرد، پاداش می‌گیره. اگه بد کرد، جریمه. به مرور یاد می‌گیره چطور پاداشش رو ماکزیمم کنه. همون روشی که AlphaGo (هوش مصنوعی که شطرنج و Go رو شکست داد) باهاش آموزش دید.

چرا باید بدونی؟ چون RLHF (Reinforcement Learning from Human Feedback) یکی از مراحل کلیدی ساخت LLM هاست. وقتی ChatGPT بعد از آموزش اولیه «ادب‌دار» می‌شه و جواب‌های خطرناک نمی‌ده، اون بخش RL رو با فیدبک انسانی انجام دادن.

تشبیه

سه نوع یادگیری رو اینطوری تصور کن: Supervised مثل معلمی که جواب درست رو بهت می‌ده. Unsupervised مثل بچه‌ای که خودش الگو کشف می‌کنه. Reinforcement مثل یه بازیکن که با آزمون و خطا بهتر می‌شه.

ویژگی	Supervised	Unsupervised	Reinforcement
ورودی	داده + جواب	فقط داده	محیط + بازخورد
خروجی	قانون (مدل)	الگو/گروه‌بندی	سیاست بهینه
مثال	تشخیص اسپم	دسته‌بندی مشتری	RLHF / بازی
کاربرد در AI امروز	Fine-tuning	Clustering	هم‌ترازی مدل

نکته

فرق RL با Supervised Learning رو همینطوری حفظ کن: Supervised مثل درس خوندن با کتاب جواب‌دار، RL مثل یادگیری شنا — خودت توی آب می‌ری و تجربه می‌کنی.

Classification — دسته‌بندی

یکی از رایج‌ترین کارهای ML. مدل یه ورودی می‌گیره و اون رو توی یکی از «دسته‌ها» قرار می‌ده. مثلاً: «این ایمیل اسپمه یا نه؟» (دو دسته)، «این عکس گربه‌ست، سگه یا پرنده؟» (سه دسته)، یا «این محصول رو ۱ تا ۵ ستاره بده» (پنج دسته).

Classification در همه جا هست — از فیلتر اسپم گرفته تا تشخیص بیماری. حتی وقتی یه مدل زبانی مثل Claude جواب می‌ده، در سطح پایین‌تر داره Classification انجام می‌ده: «کدوم کلمه احتمالش بیشتره بعد از این کلمه بیاد؟»

Regression — رگرسیون

برخلاف Classification که دسته مشخص می‌کنه، Regression یه عدد پیش‌بینی می‌کنه. «قیمت این خونه چقدره؟» (یه عدد)، «فردا دما چند درجه می‌شه؟» (یه عدد)، «این مشتری چند ماه دیگه ریزش می‌کنه؟» (یه عدد).

Regression مثل Classification پایه‌ای و قدیمیه ولی هنوز پرکاربرده. توی خیلی از پروژه‌های کسب‌وکاری، مدل‌های Regression ساده بهتر از مدل‌های پیچیده Deep Learning جواب می‌دن — مخصوصاً وقتی داده کم داری.

Feature Engineering — مهندسی ویژگی

توی ML سنتی (قبل از Deep Learning)، سخت‌ترین بخش همین بود. یعنی دستی بهترین ویژگی‌ها رو از داده استخراج کنی. مثلاً برای پیش‌بینی قیمت خونه: متراژ، تعداد اتاق، فاصله تا مترو، سال ساخت — اینا رو باید خودت انتخاب می‌کردی.

Deep Learning ضربه بزرگی به Feature Engineering زد چون خود مدل ویژگی‌ها رو از داده خام یاد می‌گیره. ولی هنوز توی خیلی از پروژه‌ها (مخصوصاً با داده جدولی) Feature Engineering اهمیت زیادی داره. مدل‌های ساده‌تر مثل XGBoost با Feature Engineering خوب اغلب از مدل‌های عمیق بدون ویژگی‌سازی بهتر عمل می‌کنن.

Overfitting — بیش‌برازش

یکی از رایج‌ترین مشکلات ML. مدل روی داده آموزشی عالی کار می‌کنه ولی روی داده جدید افتضاح. چرا؟ چون داده آموزشی رو حفظ کرده، نه اینکه الگوی واقعی رو یاد گرفته باشه. مثل دانش‌آموزی که سوالات امتحانات قبلی رو حفظ کرده ولی مفهوم درس رو نفهمیده.

Overfitting مخصوصاً وقتی داده کم داری و مدل خیلی پیچیده‌ست اتفاق می‌افته. راه‌حل‌هاش: داده بیشتر، مدل ساده‌تر، Dropout، Regularization و Early Stopping. توی Fine-tuning هم اگه حواست نباشه، مدل ممکنه Overfit بشه — یکی از ۱۰ اشتباه رایج پروژه‌های AI همینه.

Learning Rate — نرخ یادگیری

یکی از مهم‌ترین hyperparameter ها. تصور کن داری از یه کوه پایین میای و دنبال پایین‌ترین نقطه (دره) می‌گردی. Learning Rate اندازه قدم‌هاته. خیلی بزرگ؟ از دره رد می‌شی. خیلی کوچیک؟ تا ابد طول می‌کشه برسی.

توی Fine-tuning، Learning Rate معمولاً خیلی کوچیک انتخاب می‌شه (مثلاً 2e-5) چون نمی‌خوای دانش قبلی مدل رو خراب کنی. فقط می‌خوای یه تنظیم ظریف انجام بدی. اگه Learning Rate رو زیاد بذاری، مدل «فراموشی فاجعه‌بار» (Catastrophic Forgetting) می‌گیره و دانش قبلیش رو از دست می‌ده.

هشدار

Overfitting یکی از رایج‌ترین دلایل شکست پروژه‌های ML هست. مدلت روی داده آموزشی ۹۹٪ دقت داره ولی روی مشتری واقعی ۶۰٪؟ Overfitting. همیشه روی داده‌ای که مدل ندیده (Validation Set) تست کن.

Backpropagation — پس‌انتشار

الگوریتمی که اساس آموزش شبکه‌های عصبیه. وقتی مدل یه جواب اشتباه می‌ده، Backpropagation خطا رو از خروجی به عقب (لایه‌های قبلی) برمی‌گردونه و وزن‌ها رو تنظیم می‌کنه. مثل اینکه معلم بگه «اینجا اشتباه کردی» و تو برگردی و ببینی کجای فکرت مشکل داشته.

این الگوریتم در سال ۱۹۸۶ دوباره کشف شد ولی تا سال ۲۰۱۲ که GPU های قوی اومدن، واقعاً عملی نبود. الان هر بار که یه مدل «آموزش می‌بینه» یعنی داره میلیاردها بار Backpropagation انجام می‌ده.

Dataset — مجموعه داده

داده‌ای که برای آموزش استفاده می‌شه. می‌تونه متن، تصویر، صوت یا هر چیز دیگه باشه. مهم‌ترین عامل کیفیت مدل نهایی همینه. «Garbage in, garbage out» (آشغال وارد، آشغال خارج) شعار قدیمی AI هست که هنوز صددرصد درسته.

کیفیت Dataset مهم‌تر از اندازه‌شه. ۱۰۰۰ نمونه تمیز و متنوع بهتر از ۱ میلیون نمونه شلوغ و تکراریه. توی سری Fine-tuning عملی مفصل درباره ساخت Dataset خوب صحبت کردم.

Parameter — پارامتر

هر وزن (weight) داخل شبکه عصبی یه پارامتره. وقتی می‌گیم مدل ۷B (هفت میلیارد پارامتر) هست، یعنی ۷ میلیارد عدد داره که توی آموزش تنظیم شدن. مدل ۷۰B یعنی ۷۰ میلیارد. هرچی بیشتر، مدل قوی‌تره ولی به VRAM بیشتری هم نیاز داره.

یه قاعده سرانگشتی: هر میلیارد پارامتر تقریباً ۲ گیگابایت VRAM نیاز داره (با دقت FP16). یعنی مدل ۷B حدود ۱۴ گیگ، مدل ۷۰B حدود ۱۴۰ گیگ VRAM می‌خواد. البته با Quantization (که بعداً توضیح می‌دم) این عدد خیلی کمتر می‌شه.

یادآوری

تا اینجا ۱۵ مفهوم پایه رو یاد گرفتی. اگه اینا رو بفهمی، بقیه فرهنگ لغت هوش مصنوعی خیلی راحت‌تر می‌شه. حالا بریم سراغ مدل‌های زبانی — همون چیزایی که ChatGPT و Claude رو ساختن.

۲. مدل‌های زبانی

اصطلاحات ۱۶ تا ۲۷

مدل‌های زبانی بزرگ (LLM ها) قهرمان‌های دنیای AI امروز هستن. همون چیزی که ChatGPT و Claude رو می‌سازه. این بخش اصطلاحاتی رو پوشش می‌ده که برای فهمیدن نحوه کار LLM ها لازمه بدونی — از Token و Embedding تا Context Window و Temperature. اگه با سری از صفر تا متخصص AI آشنایی، خیلی از اینا رو دیدی. ولی اینجا یه مرور سریع و دقیقه.

Large Language Model (LLM) — مدل زبانی بزرگ

یه شبکه عصبی عمیق که مخصوص زبان طبیعیه. LLM ها روی تریلیون‌ها کلمه از اینترنت آموزش دیدن، معماری خاصی به اسم Transformer دارن، و کارشون پیش‌بینی کلمه بعدیه. ولی به خاطر مقیاس عظیمشون، می‌تونن خیلی فراتر از پیش‌بینی ساده عمل کنن — استدلال کنن، خلاصه کنن، ترجمه کنن و کد بنویسن.

یه کشف جالب دهه گذشته: وقتی مدل به اندازه کافی بزرگ باشه و روی داده کافی آموزش ببینه، قابلیت‌هایی ظاهر می‌شن که هیچ‌کس بهشون آموزش نداده بود (Emergent Abilities). مثلاً GPT-3 ناگهان می‌تونست ریاضی حل کنه بدون اینکه کسی ریاضی بهش یاد داده باشه.

تشبیه

LLM مثل یه کتابخونه متحرکه — میلیاردها صفحه متن رو خونده و حالا می‌تونه درباره هر چیزی حرف بزنه. ولی حواست باشه: «خوندن» یعنی الگو دیدن، نه «فهمیدن» مثل آدم.

Transformer — ترنسفورمر

معماری انقلابی که پشت تمام LLM های مدرنه. گوگل در مقاله مشهور «Attention is All You Need» (۲۰۱۷) این معماری رو معرفی کرد. قبلش از RNN و LSTM استفاده می‌شد که کُند بودن و با متن‌های بلند مشکل داشتن.

ایده اصلی Transformer مکانیزم «Attention» هست — مدل می‌تونه هر کلمه رو با همه کلمات دیگه مقایسه کنه و ببینه کدوم‌ها مهم‌ترن. مثلاً توی جمله «علی سگش رو بُرد پارک و اونجا باهاش بازی کرد»، مدل باید بفهمه «اونجا» به «پارک» اشاره داره. Attention همین کار رو می‌کنه.

Token — توکن

کوچک‌ترین واحد متنی که مدل می‌بینه. برخلاف انتظار، یه Token همیشه یه کلمه نیست. می‌تونه یه کلمه باشه، نصف کلمه، یا حتی یه نشانه. مثلاً «tokenization» ممکنه به ۴ توکن تقسیم بشه: «token / iza / tion /». متن فارسی معمولاً توکن‌های بیشتری مصرف می‌کنه چون مدل‌ها بیشتر روی انگلیسی آموزش دیدن.

چرا Token مهمه؟ چون قیمت‌گذاری API ها (مثل OpenAI و Anthropic) بر اساس تعداد توکنه. اندازه Context Window هم بر اساس توکنه. یه قاعده سرانگشتی: هر توکن تقریباً ۰.۷۵ کلمه انگلیسیه.

BPE (Byte-Pair Encoding) — رمزگذاری جفت‌بایت

الگوریتمی که مدل‌ها برای تبدیل متن به توکن ازش استفاده می‌کنن. ایده‌اش ساده‌ست: از کاراکترهای تکی شروع می‌کنه و جفت‌های پرتکرار رو ادغام می‌کنه. مثلاً «t» و «h» خیلی کنار هم میان، پس «th» یه توکن می‌شه. بعد «the» یه توکن می‌شه. و همینطور ادامه پیدا می‌کنه.

چرا BPE مهمه؟ چون کیفیت Tokenization مستقیماً روی عملکرد مدل تأثیر داره. مدل‌هایی که توکنایزر بهتری دارن، فارسی رو بهتر می‌فهمن. مقایسه Qwen و Llama نشون می‌ده مدل‌هایی که توکنایزر چندزبانه بهتری دارن، فارسی رو بهتر پردازش می‌کنن.

Embedding — تعبیه‌سازی

تبدیل متن (یا هر نوع داده‌ای) به یه لیست از اعداد (بردار) که معنا رو نشون می‌ده. مثلاً کلمه «گربه» تبدیل می‌شه به یه بردار ۷۶۸ بعدی. دو کلمه که معنی نزدیکی دارن، بردارهاشون هم نزدیک به هم می‌شه. اساس RAG، جستجوی معنایی و خیلی چیزهای دیگه همین Embedding هست.

مدل‌های Embedding مجزا از LLM ها هستن. کوچک‌تر، سریع‌تر و ارزون‌ترن. مثل text-embedding-3 از OpenAI یا BGE-M3 که اوپن‌سورسه و فارسی رو هم خوب ساپورت می‌کنه. توی مقاله Vector Database بیشتر درباره‌شون توضیح دادم.

Context Window — پنجره زمینه

حداکثر تعداد توکن‌هایی که مدل می‌تونه یکجا «ببینه». مثلاً GPT-3 پنجره ۴۰۹۶ توکنی داشت. مدل‌های مدرن ممکنه ۲۰۰ هزار، ۱ میلیون یا حتی ۱۲ میلیون توکن پنجره داشته باشن. هرچی بزرگ‌تر، مدل می‌تونه context بیشتری از گفتگو رو نگه داره.

ولی بزرگ‌تر همیشه بهتر نیست. هم هزینه بیشتره، هم پدیده «Lost in the Middle» وجود داره — مدل اطلاعاتی که وسط Context هستن رو بدتر از ابتدا و انتها به یاد میاره. مقاله Context Window رو بخون برای جزئیات بیشتر.

Prompt — دستور

چیزی که به مدل می‌دی. می‌تونه سوال باشه، دستور باشه، یا متن. هنر طراحی Prompt خوب رو می‌گن Prompt Engineering — و خیلی مهم‌تر از چیزیه که فکر می‌کنی. یه Prompt خوب می‌تونه خروجی رو از «بد» به «عالی» تبدیل کنه.

راهنمای کامل Prompt Engineering رو نوشتم تا بهت نشون بدم چطور سوالات بهتری از مدل بپرسی. حتی اگه فقط از ChatGPT استفاده می‌کنی و کاری به کد نداری، Prompt Engineering بهت کمک می‌کنه.

Completion / Response — پاسخ

خروجی مدل. وقتی Prompt می‌فرستی، چیزی که مدل برمی‌گردونه Completion یا Response هست. اسمش Completion هست چون LLM در اصل داره متن تو رو «تکمیل» می‌کنه — پیش‌بینی می‌کنه بعد از متن تو چی باید بیاد.

طول Completion رو معمولاً با پارامتر max_tokens کنترل می‌کنی. مثلاً اگه بذاری ۱۰۰۰ توکن، مدل حداکثر ۱۰۰۰ توکن جواب می‌ده. دقت کن: هم Prompt و هم Completion از Context Window استفاده می‌کنن.

سوال رایج

«Completion و Response فرق دارن؟» عملاً نه. Completion اصطلاح قدیمی‌تره (از زمان GPT-3 Completion API). Response اصطلاح جدیدتره (از زمان Chat API). هر دو یعنی خروجی مدل.

Autoregressive — خودبازگشتی

نحوه تولید متن توسط LLM. مدل هر بار فقط یه توکن تولید می‌کنه، بعد اون توکن رو به ورودی اضافه می‌کنه و توکن بعدی رو پیش‌بینی می‌کنه. مثل اینکه یه نویسنده هر بار فقط یه کلمه بنویسه و بعد بخونه چی نوشته و کلمه بعدی رو تصمیم بگیره.

این یعنی سرعت تولید متن توسط LLM محدوده — نمی‌تونه همزمان همه کلمات رو تولید کنه. به همین دلیل وقتی از ChatGPT استفاده می‌کنی، جواب کلمه به کلمه ظاهر می‌شه (streaming). همچنین یعنی هر اشتباه اولیه می‌تونه بقیه خروجی رو تحت تأثیر بذاره.

Hallucination — توهم

وقتی مدل با اعتماد به نفس کامل یه چیز اشتباه می‌گه. بزرگ‌ترین مشکل LLM ها همینه. مثلاً ازش بپرسی «نویسنده کتاب X کیه؟» و اگه نمی‌دونه، یه اسم اختراع می‌کنه و با اطمینان تحویلت می‌ده — انگار واقعاً درسته.

برای پروژه‌های جدی این خیلی خطرناکه. تصور کن AI به کاربر برنامه ورزشی اشتباه پیشنهاد بده. راه‌حل اصلی: RAG (دادن اطلاعات واقعی به مدل) و «بگو نمی‌دونم» prompt (آموزش دادن به مدل که وقتی مطمئن نیست، اعتراف کنه).

Temperature — دما

پارامتری که میزان «خلاقیت» مدل رو کنترل می‌کنه. صفر یعنی همیشه احتمالی‌ترین جواب — کاملاً قابل پیش‌بینی. عدد بالا (مثلاً ۱.۵) یعنی جواب‌های متنوع و خلاقانه — ممکنه عجیب هم بشه.

برای پروژه‌هایی که دقت مهمه (مثل RAG، استخراج اطلاعات) Temperature رو صفر یا نزدیک صفر بذار. برای نوشتن خلاقانه، ۰.۷ تا ۰.۹ خوبه. Temperature بالای ۱ معمولاً خروجی بی‌کیفیت تولید می‌کنه — هیجان‌انگیز ولی نامعتبر.

Logits و Softmax و Top-k — مکانیزم انتخاب کلمه

وقتی مدل می‌خواد کلمه بعدی رو انتخاب کنه، اول یه عدد خام (Logit) به هر کلمه توی واژه‌نامه‌اش اختصاص می‌ده. بعد Softmax این اعداد خام رو به احتمال تبدیل می‌کنه (جمع‌شون ۱ می‌شه). مثلاً: «سلام» ۰.۴، «درود» ۰.۲، «هی» ۰.۱ و… بعد از این احتمالات، یکی رو انتخاب می‌کنه.

Top-k یه فیلتره: فقط k تا کلمه با بالاترین احتمال رو نگه می‌داره و بقیه رو حذف می‌کنه. مثلاً Top-k=50 یعنی فقط از ۵۰ گزینه برتر انتخاب کن. این باعث می‌شه خروجی منطقی‌تر بشه. Top-p (یا Nucleus Sampling) هم مشابهه ولی بر اساس مجموع احتمالات فیلتر می‌کنه.

تشبیه

فرایند تولید کلمه توسط LLM مثل رأی‌گیریه. هر کلمه‌ای رأی (Logit) می‌گیره، Softmax درصد رأی رو حساب می‌کنه، Temperature مشخص می‌کنه چقدر «شانس» دخالت داره، و Top-k نامزدهای ضعیف رو حذف می‌کنه.

۳. مدل‌های معروف

اصطلاحات ۲۸ تا ۳۷

حالا که فهمیدی LLM چطور کار می‌کنه، بذار ببینیم بازیگرهای اصلی کی هستن. هر ماه مدل‌های جدیدی معرفی می‌شن ولی این لیست شامل مهم‌ترین‌هایی هست که الان (۲۰۲۶) باید بشناسی. مدل‌ها رو به دو دسته Open-Source و Closed-Source تقسیم می‌کنیم.

Open-Source vs Closed-Source — مدل باز و بسته

Closed-Source: مدل رو نمی‌تونی دانلود کنی. فقط از طریق API استفاده می‌کنی (مثل GPT-5، Claude). داده‌هات به سرور اونا می‌ره. Open-Source: مدل رو می‌تونی دانلود کنی، روی سرور خودت اجرا کنی، حتی تغییرش بدی (مثل Llama، Qwen، DeepSeek).

برای پروژه‌های جدی، مخصوصاً وقتی حریم خصوصی داده‌ها مهمه یا می‌خوای مدل رو Fine-tune کنی، open-source انتخاب بهتریه. مدل‌های open-source الان به مدل‌های بسته خیلی نزدیک شدن — یکی از بزرگ‌ترین تحولات ۲۰۲۴-۲۰۲۶.

ویژگی	Open-Source	Closed-Source
دسترسی	دانلود + اجرای لوکال	فقط API
هزینه	GPU خودت (یا ابری)	هزینه per-token
حریم خصوصی	داده پیش خودت می‌مونه	داده به سرور اونا می‌ره
Fine-tuning	کاملاً ممکن	محدود
مثال	Llama 4, Qwen 3, DeepSeek V4	GPT-5, Claude Opus 4.7

هشدار

انتخاب بین Open و Closed فقط فنی نیست. اگه داده‌های حساس داری (پزشکی، مالی، حقوقی)، Open-Source مزیت حریم خصوصی داره — داده‌هات سرور خودته. ولی Closed-Source هم API های آسون‌تری داره و معمولاً هنوز یه کم قوی‌ترن.

GPT — خانواده مدل‌های OpenAI

Generative Pre-trained Transformer. خانواده مدل‌هایی که دنیا رو عوض کردن. GPT-3 (۲۰۲۰) دنیا رو شوکه کرد، ChatGPT (نوامبر ۲۰۲۲) سریع‌ترین رشد محصول دیجیتال تاریخ بود (۱ میلیون کاربر در ۵ روز)، و GPT-5 (۲۰۲۵) حالا فرانتیر مدل‌های بسته‌ست.

OpenAI مدل‌های متنوعی داره: GPT-5 (قوی‌ترین)، GPT-5.5 (جدیدترین)، و مدل‌های o-series برای reasoning. دسترسی فقط از طریق API و ChatGPT — مدل‌ها open-source نیستن.

Claude — خانواده مدل‌های Anthropic

مدل‌های ساخت Anthropic. Claude به خاطر ایمنی، دقت و پنجره Context بزرگش معروفه. Claude Opus 4.7 (جدیدترین مدل flagship) یکی از قوی‌ترین مدل‌های موجوده. Claude همچنین Sonnet (سریع‌تر و ارزون‌تر) و Haiku (کوچک‌ترین و سریع‌ترین) داره.

Anthropic رویکرد خاصی به ایمنی AI داره و Claude رو با تکنیک Constitutional AI آموزش می‌ده. دسترسی از طریق API و claude.ai.

Gemini — خانواده مدل‌های Google

مدل‌های گوگل. Gemini ذاتاً multi-modal هست — یعنی از اول طوری طراحی شده که هم متن، هم تصویر، هم صوت و هم ویدیو رو بفهمه. Gemini 2.5 (آخرین نسخه) پنجره Context خیلی بزرگی داره و عملکرد رقابتی‌ای با GPT-5 و Claude داره.

گوگل Gemini رو توی تمام محصولاتش ادغام کرده — از جستجو گرفته تا Android و Google Workspace.

Llama — مدل اوپن‌سورس Meta

خانواده مدل‌های اوپن‌سورس Meta (شرکت مادر فیسبوک). Llama وقتی منتشر شد بازی رو عوض کرد — اولین بار بود که یه مدل بزرگ با کیفیت خیلی بالا آزادانه در دسترس قرار گرفت. Llama 4 (جدیدترین) رقیب جدی مدل‌های بسته‌ست.

Llama مناسب Fine-tuning هست و community بزرگی داره. اگه تازه شروع می‌کنی با مدل‌های اوپن‌سورس، Llama یکی از بهترین انتخاب‌هاست. مقایسه Qwen و Llama رو بخون اگه می‌خوای بدونی کدوم برای فارسی بهتره.

Qwen — مدل اوپن‌سورس Alibaba

مدل‌های ساخت Alibaba Cloud. Qwen 3 (آخرین نسخه) از نظر عملکرد خیلی قوی شده و مخصوصاً برای زبان‌های غیرانگلیسی (از جمله فارسی) عملکرد بهتری داره. توکنایزر Qwen برای زبان‌های آسیایی بهینه‌تره.

Qwen در اندازه‌های مختلف (۰.۵B تا ۷۲B+) عرضه می‌شه و برای Fine-tuning روی فارسی یکی از بهترین گزینه‌هاست.

DeepSeek — مدل اوپن‌سورس چینی

مدل‌های ساخت شرکت چینی DeepSeek. نسخه V4 (با ۱.۶ تریلیون پارامتر) یکی از قوی‌ترین مدل‌های اوپن‌سورس جهانه. DeepSeek با معماری MoE (Mixture of Experts) کار می‌کنه که بهش اجازه می‌ده با منابع کمتر، عملکرد بالایی داشته باشه.

DeepSeek مخصوصاً در کدنویسی و ریاضی قوی عمل می‌کنه. DeepSeek-R1 (مدل reasoning) هم خیلی مورد توجه قرار گرفته.

Mistral — مدل اوپن‌سورس فرانسوی

شرکت فرانسوی Mistral AI مدل‌هایی می‌سازه که نسبت اندازه به عملکردشون فوق‌العاده‌ست. Mistral Large (آخرین مدل بزرگ‌شون) یکی از قوی‌ترین مدل‌های اوپن‌سورسه. Mistral همچنین مدل‌های کوچک‌تری مثل Mixtral و Mistral 7B داره.

مزیت اصلی Mistral: مدل‌های کوچکشون با کیفیت بالا، عالی برای شروع و آزمایش هستن. اگه GPU محدود داری، مدل‌های Mistral گزینه خوبی هستن.

BERT — مدل فهم متن Google

Bidirectional Encoder Representations from Transformers. مدلی که گوگل در ۲۰۱۸ منتشر کرد. برخلاف GPT که «تولید» متنه، BERT برای «فهم» متنه. BERT متن رو از دو طرف (چپ به راست و راست به چپ) می‌خونه و معنا رو درک می‌کنه.

BERT برای تولید متن مناسب نیست ولی برای Classification، استخراج اطلاعات و جستجو فوق‌العاده‌ست. خیلی از مدل‌های Embedding مدرن بر اساس معماری BERT ساخته شدن. جستجوی گوگل سال‌ها از BERT استفاده کرد.

Multi-modal — چندوجهی

مدلی که فقط متن نیست. می‌تونه عکس، صوت، ویدیو هم بفهمه. GPT-5 و Claude Opus 4 هم متن، هم تصویر، هم ویدیو رو می‌فهمن. این یعنی می‌تونی عکس یه نمودار رو بفرستی و بگی «تحلیلش کن» یا عکس غذا بفرستی و بگی «کالریش چقدره».

روند بازار به سمت Multi-modal هست. مدل‌های آینده همه Multi-modal خواهند بود. همچنین مدل‌های تخصصی دیگه‌ای هم هستن: Image Models (مثل Midjourney، DALL-E)، Audio Models (مثل Whisper برای Speech-to-Text) و Video Models (مثل Sora و Veo).

نکته

اگه می‌خوای مدل اوپن‌سورسی رو Fine-tune کنی برای فارسی، از Qwen یا Llama شروع کن. مقایسه کاملشون رو توی مقاله Qwen در مقابل Llama نوشتم.

۴. تکنیک‌ها و مفاهیم کلیدی

اصطلاحات ۳۸ تا ۵۲

حالا که بازیگرهای اصلی رو شناختی، وقتشه ابزارها و تکنیک‌ها رو یاد بگیری. این بخش مفاهیمی رو پوشش می‌ده که هر کسی — چه مدیر کسب‌وکار، چه توسعه‌دهنده — باید بدونه. از Prompt Engineering تا Quantization، از Training تا Inference.

Training — آموزش

فرآیند یاد دادن مدل از روی داده. توی این مرحله، وزن‌های (parameters) مدل تنظیم می‌شن. گرون‌ترین بخشه — می‌تونه میلیون‌ها دلار GPU بخوره. برای یه مدل از صفر تربیت کردن، نیاز به هزاران GPU داره. این کار رو ما نمی‌کنیم — مدل آماده می‌گیریم.

وقتی Meta مدل Llama رو منتشر می‌کنه، اون مدل قبلاً training شده. یعنی میلیون‌ها دلار خرج شده. ما فقط ازش استفاده می‌کنیم (Inference) یا Fine-tune اش می‌کنیم.

Pre-training — پیش‌آموزش

مرحله اول Training. مدل روی حجم عظیمی از متن اینترنت آموزش می‌بینه. فقط یه کار یاد می‌گیره: «با توجه به کلمات قبلی، کلمه بعدی رو پیش‌بینی کن». اینقدر ساده‌ست. ولی همین کار ساده روی تریلیون‌ها کلمه، مدل رو به یه سیستم فوق‌العاده باهوش تبدیل می‌کنه.

بعد از Pre-training، مدل هنوز آماده استفاده نیست. لازمه مراحل بعدی (SFT و RLHF) هم انجام بشه تا مدل «مفید» و «بی‌خطر» بشه.

Inference — استنتاج

استفاده از مدل بعد از آموزش. یعنی وقتی به مدل ورودی می‌دی و خروجی می‌گیری. هر بار که با ChatGPT صحبت می‌کنی، داری Inference انجام می‌دی. این بخش ارزون‌تره ولی هنوز قابل توجهه — تمام کاری که سرور GPU قراره بکنه، Inference هست.

تفاوت کلیدی: Training مثل ساختن یه کارخونه‌ست — یه بار خیلی گرون. Inference مثل تولید کالا — هر دفعه ارزون‌تر ولی مدام انجام می‌شه. شما به عنوان استفاده‌کننده، فقط با Inference و Fine-tuning سر و کار دارید، نه Training از صفر.

هشدار

خیلی‌ها Training و Fine-tuning رو قاطی می‌کنن. Training از صفر: میلیون‌ها دلار. Fine-tuning: چند دلار تا چند صد دلار. Inference: فقط هزینه اجرا. اگه کسی گفت «مدل رو خودم Train کردم» یعنی Fine-tune — نه Training از صفر.

تشبیه

Inference مثل رانندگی با ماشینه. Training مثل ساختن ماشین توی کارخونه بود (یه بار، خیلی گرون). الان داری سوار می‌شی و ازش استفاده می‌کنی (هر روز، هزینه بنزین). Fine-tuning هم مثل تیونینگ ماشینه — یه سری تغییرات سفارشی.

Prompt Engineering — مهندسی دستور

هنر نوشتن Prompt خوب برای گرفتن بهترین نتیجه از مدل. شامل تکنیک‌هایی مثل Few-shot (دادن چند مثال)، Chain-of-Thought (خواستن استدلال مرحله‌به‌مرحله)، و Role-playing (دادن نقش به مدل). یه Prompt خوب می‌تونه خروجی رو به‌طرز چشمگیری بهتر کنه.

راهنمای کامل Prompt Engineering رو نوشتم. اگه فقط یه مهارت از دنیای AI یاد بگیری، همین باشه — چون بدون کدنویسی هم قابل استفاده‌ست.

System Prompt — دستور سیستمی

دستوری که قبل از پیام کاربر به مدل داده می‌شه و رفتار کلی‌شو مشخص می‌کنه. مثلاً: «تو یه دستیار پشتیبانی فارسی‌زبان هستی. فقط درباره محصولات ما جواب بده. مودب باش. اگه نمی‌دونی، بگو نمی‌دونم.»

System Prompt مهم‌ترین ابزار کنترل رفتار مدل در پروژه‌های واقعیه. توی پروژه‌های Agent و RAG، System Prompt تعیین می‌کنه مدل چه نقشی داره، چه محدودیت‌هایی داره و چطور باید جواب بده. بدون System Prompt خوب، پروژه‌ات قابل پیش‌بینی نیست.

Fine-tuning — تنظیم دقیق

یه مدل از قبل آموزش‌دیده (pre-trained) رو می‌گیری و روی داده‌های خاص خودت یه مقدار بیشتر آموزش می‌دی تا برای کار خاصت بهتر بشه. خیلی ارزون‌تر از Training از صفره. شما توی سری Fine-tuning عملی این کار رو زیاد می‌کنید.

Fine-tuning برای تغییر لحن، یادگیری فرمت خاص، و تخصصی کردن مدل عالیه. ولی برای «دادن اطلاعات جدید» به مدل، RAG بهتره. ترکیب هر دو (Fine-tune + RAG) بهترین نتیجه رو می‌ده.

Quantization — کم‌دقت‌سازی

تکنیکی برای کوچک‌تر کردن مدل با کم کردن دقت پارامترها. مثلاً به جای اینکه هر پارامتر ۲ بایت باشه (FP16)، می‌شه نیم بایت (INT4). مدل ۴ برابر کوچک‌تر می‌شه اما کیفیتش فقط کمی پایین میاد. این تکنیک حیاتیه برای اجرای مدل‌های بزرگ روی سخت‌افزار محدود.

با Quantization می‌تونی یه مدل ۷۰B رو که معمولاً ۱۴۰ گیگ VRAM می‌خواد، با ۳۵ گیگ (INT4) اجرا کنی. ابزارهایی مثل GGUF و AWQ برای Quantization محبوبن.

فرمت	اندازه هر پارامتر	اندازه مدل ۷B	کیفیت
FP32	۴ بایت	~۲۸ گیگ	بالاترین (مرجع)
FP16 / BF16	۲ بایت	~۱۴ گیگ	عملاً مثل FP32
INT8	۱ بایت	~۷ گیگ	کاهش جزئی
INT4	۰.۵ بایت	~۳.۵ گیگ	قابل قبول برای اکثر کارها

نکته عملی

Quantization رو جدی بگیر. اگه مدل ۷B رو با INT4 اجرا کنی، روی RTX 3060 (12GB) هم جا می‌شه. کیفیت ۹۰-۹۵٪ مدل اصلی رو داری. برای شروع و آزمایش، بهترین انتخابه.

Emergent Abilities — قابلیت‌های ظهوریافته

یکی از عجیب‌ترین کشف‌های دنیای AI. وقتی مدل به اندازه کافی بزرگ می‌شه، ناگهان قابلیت‌هایی ظاهر می‌شن که هیچ‌کس بهش آموزش نداده بود. مثلاً GPT-2 (مدل ۲۰۱۹) نمی‌تونست ریاضی حل کنه. GPT-3 (۲۰۲۰) که فقط بزرگ‌تر شده بود، یهو می‌تونست!

هیچ‌کس دقیقاً نمی‌دونه چرا این اتفاق می‌افته. حتی محققان OpenAI و Anthropic این رو «تجربی» توصیف می‌کنن — یعنی «می‌بینیم که هست ولی نمی‌دونیم چرا». این یعنی توسعه با LLM یه مقدار «غیرقابل پیش‌بینی» هست. باید آماده باشی که گاهی چیزی که فکر می‌کردی کار می‌کنه، نکنه و برعکس.

Knowledge Cutoff — مرز دانش

هر مدل تا یه تاریخ مشخص آموزش دیده و بعدش هیچی نمی‌دونه. مثلاً اگه مدلت تا مارس ۲۰۲۶ آموزش دیده، از رویدادهای بعدش بی‌خبره. این یکی از دلایل اصلی نیاز به RAG هست — بتونی اطلاعات به‌روز به مدل بدی.

Knowledge Cutoff فقط درباره «تاریخ» نیست. مدل هیچ چیزی از داده‌های خصوصی تو هم نمی‌دونه — محصولاتت، قیمت‌هات، مستنداتت. اینجاست که RAG نقش حیاتی بازی می‌کنه.

Zero-shot / Few-shot / Many-shot

روش‌های مختلف استفاده از مدل بر اساس تعداد مثال‌هایی که توی Prompt می‌دی. Zero-shot: بدون هیچ مثالی — فقط دستور. Few-shot: ۲-۵ مثال — مدل الگو رو می‌گیره. Many-shot: ده‌ها مثال — وقتی دقت خیلی مهمه.

Few-shot یکی از ساده‌ترین و مؤثرترین تکنیک‌های Prompt Engineering هست. به جای اینکه بگی «جواب رو اینطوری بده»، چند مثال نشون بده — مدل خیلی بهتر می‌فهمه چی می‌خوای.

Chain-of-Thought (CoT) — زنجیره فکر

تکنیکی که از مدل می‌خوای قبل از جواب دادن، «مرحله به مرحله فکر کنه». به جای اینکه بگی «جواب رو بده»، می‌گی «مرحله به مرحله استدلال کن، بعد جواب بده». این کار دقت مدل رو مخصوصاً توی مسائل ریاضی و منطقی خیلی بالا می‌بره.

مدل‌های o-series از OpenAI و Claude با thinking mode ذاتاً Chain-of-Thought دارن — یعنی قبل از جواب دادن، «فکر» می‌کنن. ولی حتی بدون این مدل‌های خاص، اضافه کردن «Let’s think step by step» به Prompt نتایج رو بهتر می‌کنه.

RLHF — یادگیری تقویتی از بازخورد انسانی

Reinforcement Learning from Human Feedback. مرحله‌ای که بعد از Pre-training و SFT (Supervised Fine-Tuning) انجام می‌شه. آدم‌ها جواب‌های مدل رو رتبه‌بندی می‌کنن (کدوم بهتره) و مدل از این بازخورد یاد می‌گیره «جواب خوب» چه شکلیه.

RLHF همون چیزیه که ChatGPT رو «مودب» و «مفید» کرد. بدون RLHF، مدل ممکنه جواب‌های نامناسب، خطرناک یا بی‌ربط بده. DPO (Direct Preference Optimization) یه جایگزین ساده‌تر و ارزون‌تره که توی سری Fine-tuning عملی بهش پرداختیم.

API — رابط برنامه‌نویسی

Application Programming Interface. راهی که از کد به مدل دسترسی پیدا می‌کنی. وقتی می‌گیم «از API مدل استفاده کن» یعنی به جای چت مستقیم، از طریق کد درخواست بفرست و جواب بگیر. API OpenAI، API Anthropic — همه اینا همینن.

API مهمه چون اتوماسیون رو ممکن می‌کنه. از طریق ChatGPT فقط یه نفر می‌تونه سوال بپرسه. از طریق API می‌تونی هزاران درخواست در ثانیه بفرستی. مقاله Python برای AI رو بخون اگه می‌خوای شروع کنی.

Tokenizer — توکنایزر

الگوریتمی که متن رو به توکن‌ها تبدیل می‌کنه. هر مدل توکنایزر خودش رو داره. مثلاً توکنایزر GPT-4 ممکنه یه کلمه فارسی رو به ۳ توکن تبدیل کنه ولی توکنایزر Qwen همون کلمه رو ۲ توکن کنه. این یعنی Qwen فارسی رو «کارآمدتر» پردازش می‌کنه.

توکنایزر تأثیر مستقیم روی هزینه (چون قیمت بر اساس توکنه) و کیفیت داره. مدلی که فارسی رو با توکن‌های کمتری encode می‌کنه، معمولاً فارسی رو بهتر هم می‌فهمه.

Benchmark — معیار سنجش

تست‌های استانداردی که عملکرد مدل‌ها رو مقایسه می‌کنن. مثل MMLU (دانش عمومی)، HumanEval (کدنویسی)، GSM8K (ریاضی). وقتی OpenAI می‌گه «GPT-5 از Claude بهتره»، منظورش روی Benchmark هاست.

ولی Benchmark ها رو با احتیاط بخون. ممکنه مدلی توی Benchmark عالی باشه ولی توی پروژه واقعی ضعیف عمل کنه — مخصوصاً وقتی زبان فارسی وسطه. بهترین تست، تست خودته روی داده‌های واقعی پروژه‌ات. از اشتباهات رایج AI، اتکای صرف به Benchmark هاست.

تا اینجا کجاییم؟

بیش از نیمی از فرهنگ لغت هوش مصنوعی رو خوندی. پایه‌ها رو یاد گرفتی، مدل‌ها و تکنیک‌ها رو شناختی. حالا بریم سراغ RAG — تکنولوژی‌ای که قلب پروژه‌های AI تجاریه.

۵. RAG — بازیابی تقویت‌شده

اصطلاحات ۵۳ تا ۶۴

RAG شاید مهم‌ترین تکنولوژی AI تجاری باشه. اگه می‌خوای یه محصول AI واقعی بسازی — نه یه دمو — به RAG نیاز داری. مقاله کامل RAG رو قبلاً نوشتم و سری RAG از صفر تا پروداکشن رو هم داریم. اینجا یه خلاصه از اصطلاحات کلیدیه.

RAG — Retrieval-Augmented Generation

به جای اینکه مدل همه چیز رو حفظ باشه، اطلاعات لازم رو همون لحظه پیداش کن و بذار جلوش. سه مرحله داره: Retrieval (بازیابی اطلاعات مرتبط)، Augmentation (اضافه کردن به Prompt)، Generation (مدل با این اطلاعات جواب می‌سازه).

تشبیه ساده: مثل یه دکتر باهوش که حافظه نداره ولی پرونده بیمار رو هر بار جلوش می‌ذاری. دکتر دانش پزشکی داره (= مدل زبانی)، پرونده اطلاعات بیمار رو داره (= داده‌های بازیابی‌شده)، و ترکیب‌شون تشخیص درست می‌ده (= جواب نهایی). مقاله کامل RAG رو حتماً بخون.

Vector Database — پایگاه داده برداری

دیتابیسی که برای ذخیره و جستجوی سریع Embedding ها بهینه شده. برخلاف دیتابیس معمولی (مثل MySQL) که جستجوی دقیق کلمه‌ای می‌کنه، Vector DB می‌تونه «نزدیک‌ترین بردارها» رو پیدا کنه — یعنی جستجوی معنایی.

محبوب‌ترین‌ها: Qdrant (اوپن‌سورس، سریع)، Chroma (ساده، مناسب شروع)، Pinecone (مدیریت‌شده)، pgvector (اگه از PostgreSQL استفاده می‌کنی). مقاله Vector Database رو بخون برای انتخاب بهترین گزینه.

Chunking — تکه‌تکه کردن

فرایند تقسیم اسناد بزرگ به قطعات کوچک‌تر برای ذخیره در Vector DB. نحوه Chunking مستقیماً روی کیفیت RAG تأثیر داره. اگه تکه‌ها خیلی کوچیک باشن، Context ناکافیه. خیلی بزرگ؟ نویز زیاد.

روش‌های مختلف: Fixed Size (هر ۵۰۰ کاراکتر)، Recursive (بر اساس مرزهای طبیعی متن)، Semantic (بر اساس تغییر موضوع)، Document-based (بر اساس ساختار سند). قاعده سرانگشتی: ۲۰۰ تا ۱۰۰۰ توکن با Overlap حدود ۵۰ توکن.

Cosine Similarity — شباهت کسینوسی

رایج‌ترین روش اندازه‌گیری شباهت بین دو بردار. عددی بین ۰ و ۱ می‌ده. ۱ یعنی کاملاً مشابه، ۰ یعنی هیچ شباهتی ندارن. وقتی توی RAG دنبال «نزدیک‌ترین» بردار می‌گردی، معمولاً داری Cosine Similarity محاسبه می‌کنی.

چرا Cosine و نه فاصله معمولی (Euclidean)؟ چون Cosine به «جهت» بردار نگاه می‌کنه نه «اندازه»‌اش. دو جمله که معنای مشابه دارن ولی طول متفاوت، Cosine Similarity بالایی دارن ولی فاصله Euclidean‌شون ممکنه زیاد باشه.

Semantic Search — جستجوی معنایی

جستجو بر اساس معنا، نه کلمه. اگه کاربر بپرسه «چطور محصول رو پس بدم؟» و توی مستنداتت نوشته «نحوه مرجوع کالا»، جستجوی کلمه‌ای این دو رو وصل نمی‌کنه. ولی Semantic Search می‌فهمه اینا معنای مشابه دارن.

Semantic Search ترکیب Embedding + Vector Search هست. متن سوال رو Embed می‌کنی و توی Vector DB دنبال نزدیک‌ترین بردارها می‌گردی. این اساس Retrieval توی RAG هست.

فکر کن

چرا Semantic Search از جستجوی کلمه‌ای بهتره؟ فرض کن نوشتی «تمرین صبح سه‌شنبه: دویدن نیم ساعت» و کاربر می‌پرسه «برنامه ورزشی فردا چیه؟». هیچ کلمه مشترکی ندارن. ولی Semantic Search می‌فهمه هر دو درباره ورزش و برنامه‌ریزی هستن.

Hybrid Search — جستجوی ترکیبی

ترکیب جستجوی کلمه‌ای (مثل BM25) با Semantic Search. هر کدوم تنهایی ضعف‌هایی دارن: کلمه‌ای معنا رو نمی‌فهمه، معنایی گاهی کلمات دقیق رو از دست می‌ده. ترکیب‌شون معمولاً از هر کدوم تنهایی بهتره.

مثلاً اگه کاربر بپرسه «قیمت iPhone 15 Pro Max»، جستجوی معنایی ممکنه نتایج عمومی درباره گوشی بیاره، ولی جستجوی کلمه‌ای «iPhone 15 Pro Max» رو دقیق پیدا می‌کنه. Hybrid Search هر دو رو ترکیب می‌کنه.

Re-ranking — رتبه‌بندی مجدد

بعد از اینکه مرحله اول جستجو ۲۰-۳۰ نتیجه آورد، یه مدل دیگه اون نتایج رو دوباره رتبه‌بندی می‌کنه. Re-ranker ها معمولاً دقیق‌ترن ولی کندترن — به همین دلیل فقط روی نتایج اولیه اجرا می‌شن نه کل دیتابیس.

Cohere Reranker و BGE-Reranker از محبوب‌ترین‌ها هستن. اضافه کردن Re-ranking به pipeline RAG تأثیر قابل توجهی روی کیفیت نتایج داره.

Metadata — فراداده

اطلاعات اضافی که همراه هر chunk ذخیره می‌شه: منبع، تاریخ، نویسنده، دسته‌بندی. Metadata خیلی مهمه چون بهت اجازه می‌ده جستجو رو فیلتر کنی. مثلاً «فقط از مستندات ۲۰۲۶ جستجو کن» یا «فقط از بخش فنی».

بدون Metadata خوب، RAG کور عمل می‌کنه. Metadata به مدل کمک می‌کنه منبع جواب رو هم نشون بده (Citation) — که برای اعتماد کاربر خیلی مهمه.

تشبیه

Metadata مثل برچسب روی پوشه‌های بایگانیه. بدون برچسب، هر بار باید همه پوشه‌ها رو بگردی. با برچسب، مستقیم می‌ری سراغ قفسه درست.

Indexing — فهرست‌سازی

مرحله آماده‌سازی داده‌ها برای RAG. شامل: جمع‌آوری اسناد، Chunking، تبدیل به Embedding و ذخیره در Vector Database. این مرحله یک‌بار انجام می‌شه (و هر وقت داده جدید اضافه شد، آپدیت می‌شه).

کیفیت Indexing مستقیماً روی کیفیت Retrieval تأثیر داره. اگه Indexing بد انجام بشه، هر چقدر هم مدل خوب باشه، جواب‌ها ضعیفن. Garbage in, garbage out — اینجا هم صدق می‌کنه.

Citation — استناد

نشون دادن منبع جواب به کاربر. مثلاً «طبق سند X، سیاست مرجوعی ۷ روزه‌ست.» Citation اعتماد کاربر رو بالا می‌بره و امکان بررسی جواب رو فراهم می‌کنه. توی RAG، Citation از Metadata مرحله Retrieval استخراج می‌شه.

بدون Citation، کاربر نمی‌دونه جواب از کجا اومده و نمی‌تونه بهش اعتماد کنه. مخصوصاً توی حوزه‌های حساس (پزشکی، حقوقی، مالی) Citation الزامیه.

Grounding — مبنادهی

فرایند «زمین‌گیر» کردن مدل با واقعیت. بدون Grounding، مدل ممکنه Hallucination داشته باشه. RAG اصلی‌ترین روش Grounding هست — با دادن اطلاعات واقعی به مدل، جلوی من‌درآوردی حرف زدنش رو می‌گیری.

Grounding فقط RAG نیست. شامل اتصال به API های خارجی (مثل دیتابیس لحظه‌ای قیمت)، ابزارها (مثل ماشین حساب) و هر چیزی هست که مدل رو «به واقعیت متصل» کنه.

Query Expansion — گسترش پرسش

تکنیکی برای بهبود Retrieval. سوال کاربر رو قبل از جستجو بازنویسی یا گسترش می‌دی. مثلاً «مرجوعی» رو تبدیل می‌کنی به «مرجوعی OR بازگشت کالا OR استرداد» تا نتایج بیشتری پیدا بشه.

می‌تونی از خود LLM هم برای Query Expansion استفاده کنی. بگی «این سوال رو ۳ شکل مختلف بازنویسی کن» و بعد همه رو جستجو کنی. Multi-step RAG هم مشابهه — اول یه جواب اولیه بساز، بعد بر اساسش دوباره جستجو کن.

نکته عملی

اگه یه چیز از بخش RAG یاد بگیری، اینه: کیفیت Retrieval مهم‌ترین عامل موفقیت RAG هست. اگه اطلاعات اشتباه به مدل بدی، جواب هم اشتباه می‌شه. ۸۰٪ وقتت رو بذار روی بهبود Retrieval، نه LLM.

۶. Fine-tuning — تنظیم دقیق

اصطلاحات ۶۵ تا ۷۶

Fine-tuning یعنی گرفتن یه مدل آماده و تخصصی کردنش برای کار خودت. این بخش اصطلاحات تخصصی‌ترن ولی اگه قصد داری مدل رو برای پروژه‌ات سفارشی کنی، باید بشناسی‌شون. سری Fine-tuning عملی همه اینا رو با جزئیات پوشش می‌ده.

تشبیه

Query Expansion مثل اینه که به جای یه کلمه توی گوگل، چند مترادفش رو هم سرچ کنی. «مرجوعی» رو جست‌وجو نکن — «مرجوعی + بازگشت کالا + استرداد + پس دادن» رو جست‌وجو کن. نتایج بیشتر و بهتر می‌شه.

Full Fine-tuning — تنظیم کامل

همه پارامترهای مدل رو آموزش می‌دی. دقیق‌ترین روشه ولی سنگین‌ترین هم هست. برای یه مدل ۷B، به حداقل ۸۰ گیگ VRAM نیاز داری (چون علاوه بر وزن‌ها، gradient ها و optimizer state هم باید توی حافظه بمونن).

Full Fine-tuning بهترین نتیجه رو می‌ده ولی اکثر مردم ازش استفاده نمی‌کنن چون LoRA و QLoRA کیفیت نزدیکی با منابع خیلی کمتر می‌دن.

LoRA — Low-Rank Adaptation

به جای آموزش همه پارامترها، فقط ماتریس‌های کوچکی (rank پایین) اضافه می‌کنه و اونا رو آموزش می‌ده. مثل اینکه به جای بازنویسی کل کتاب، فقط حاشیه‌نویسی کنی. حجم آموزش بسیار کمتره (معمولاً ۱-۲٪ پارامترها) ولی نتیجه خیلی نزدیک به Full Fine-tuning هست.

LoRA انقلاب Fine-tuning بود. قبلش فقط شرکت‌های بزرگ می‌تونستن مدل رو Fine-tune کنن. الان با یه GPU معمولی هم می‌شه.

QLoRA — LoRA + Quantization

ترکیب LoRA با Quantization. مدل رو با دقت ۴ بیت بارگذاری می‌کنی (خیلی کمتر حافظه) و بعد LoRA رو روش اعمال می‌کنی. نتیجه: می‌تونی مدل ۷B رو با فقط ۶ گیگ VRAM (یه کارت گرافیک معمولی) Fine-tune کنی.

QLoRA عملاً Fine-tuning رو برای همه دموکراتیک کرد. سری Fine-tuning عملی ما بیشتر از QLoRA استفاده می‌کنه.

SFT — Supervised Fine-Tuning

مرحله‌ای از آموزش مدل که بعد از Pre-training و قبل از RLHF انجام می‌شه. مدل روی نمونه‌هایی از «سوال + جواب خوب» آموزش می‌بینه. مثلاً: «سوال: ایران کجاست؟ جواب: ایران کشوری در خاورمیانه‌ست…»

SFT همون چیزیه که مدل رو از یه «تکمیل‌کننده متن» به یه «دستیار مفید» تبدیل می‌کنه. بدون SFT، مدل فقط متن ادامه می‌ده — ممکنه سوالت رو ادامه بده به جای اینکه جوابش بده.

DPO — Direct Preference Optimization

جایگزین ساده‌تر RLHF. به جای آموزش یه مدل reward جدا (که RLHF نیاز داره)، DPO مستقیماً از جفت‌های «جواب خوب + جواب بد» یاد می‌گیره. ساده‌تر پیاده‌سازی می‌شه و نتایج مشابهی هم می‌ده.

در پروژه‌های Fine-tuning، DPO معمولاً بعد از SFT استفاده می‌شه. مدل رو اول با SFT یاد می‌دی جواب بده، بعد با DPO یاد می‌دی «جواب خوب» چه شکلیه.

نکته

DPO ساده‌تر از RLHF هست و برای تیم‌های کوچک مناسب‌تره. فقط به جفت‌های «جواب خوب + جواب بد» نیاز داری. نیازی به آموزش Reward Model جدا نیست. توی اکثر پروژه‌ها، DPO جایگزین خوبی برای RLHF هست.

Adapter — آداپتور

لایه‌های کوچکی که به مدل اصلی اضافه می‌شن بدون تغییر خود مدل. LoRA یه نوع Adapter هست. مزیت بزرگ Adapter ها: یه مدل پایه داری و می‌تونی چند تا Adapter مختلف روش سوار کنی — مثلاً یکی برای فارسی، یکی برای کدنویسی، یکی برای پشتیبانی مشتری.

Adapter ها مثل عینک هستن. مدل اصلی چشم‌هاته، Adapter عینکه — عوض‌ش کن و دید متفاوتی داری. خود چشم عوض نمی‌شه.

Epoch — دور

یه بار دیدن کل Dataset توسط مدل = یه Epoch. معمولاً Fine-tuning با ۱-۳ Epoch انجام می‌شه. خیلی بیشتر؟ مدل Overfit می‌کنه. خیلی کمتر؟ کافی یاد نمی‌گیره.

تعداد Epoch بهینه بسته به اندازه Dataset و پیچیدگی کار فرق داره. بهترین روش: Training Loss رو مانیتور کن — وقتی دیگه کم نمی‌شه یا Validation Loss بالا می‌ره، کافیه.

Gradient — شیب

جهت و میزان تغییری که هر پارامتر باید بکنه تا خطای مدل کم بشه. Backpropagation gradient ها رو حساب می‌کنه و Optimizer ازشون استفاده می‌کنه تا پارامترها رو آپدیت کنه. اگه Learning Rate اندازه قدمه، Gradient جهت قدمه.

مشکل رایج: Gradient Vanishing (شیب خیلی کوچیک — مدل یاد نمی‌گیره) و Gradient Exploding (شیب خیلی بزرگ — مدل ناپایدار می‌شه). تکنیک‌هایی مثل Gradient Clipping و Normalization این مشکلات رو حل می‌کنن.

Loss Function — تابع هزینه

عددی که نشون می‌ده مدل «چقدر اشتباه» داره. هدف Training: کم کردن Loss. وقتی Loss پایین میاد، مدل داره بهتر می‌شه. اگه Loss پایین نمیاد، یه جای کار مشکل داره — Dataset، Learning Rate یا معماری.

توی Fine-tuning، Loss رو هم برای Training Set و هم برای Validation Set مانیتور می‌کنی. اگه Training Loss پایین بیاد ولی Validation Loss بالا بره، مدل داره Overfit می‌کنه.

Batch Size — اندازه دسته

تعداد نمونه‌هایی که مدل همزمان می‌بینه قبل از آپدیت وزن‌ها. Batch Size بزرگ‌تر = آموزش پایدارتر ولی حافظه بیشتر. Batch Size کوچک‌تر = حافظه کمتر ولی آموزش نویزی‌تر.

وقتی GPU محدود داری، از Gradient Accumulation استفاده می‌کنی — چند Batch کوچیک رو جمع می‌کنی و بعد آپدیت می‌کنی. اثرش مثل یه Batch بزرگه ولی حافظه کمتری مصرف می‌کنه.

Unsloth — ابزار Fine-tuning سریع

کتابخانه‌ای که Fine-tuning رو تا ۲ برابر سریع‌تر و با ۶۰٪ حافظه کمتر انجام می‌ده. بهینه‌سازی‌های خاصی روی Transformer architecture اعمال می‌کنه. مخصوصاً برای QLoRA عالیه.

Unsloth مناسب کساییه که GPU محدود دارن (مثلاً T4 رایگان Google Colab). سری Fine-tuning عملی ما از Unsloth استفاده می‌کنه.

Catastrophic Forgetting — فراموشی فاجعه‌بار

وقتی Fine-tuning رو زیاده‌روی کنی، مدل دانش قبلیش رو فراموش می‌کنه. مثلاً مدل رو برای فارسی Fine-tune کنی و دیگه انگلیسی یادش بره! راه‌حل: Learning Rate پایین، تعداد Epoch کم، و استفاده از LoRA (که پارامترهای اصلی رو تغییر نمی‌ده).

Catastrophic Forgetting یکی از دلایلیه که LoRA محبوب شد. چون وزن‌های اصلی مدل دست‌نخورده می‌مونن و فقط Adapter های اضافه‌شده تغییر می‌کنن.

هشدار

Fine-tuning جادو نیست. قبل از Fine-tune کردن، مطمئن شو Prompt Engineering و RAG رو امتحان کردی. خیلی وقت‌ها این دو کافیه و نیازی به Fine-tuning نیست. Fine-tuning فقط وقتی لازمه که می‌خوای لحن، سبک یا فرمت خروجی مدل رو تغییر بدی.

۷. Agent — عامل هوشمند

اصطلاحات ۷۷ تا ۸۶

Agent ها داغ‌ترین موضوع AI در ۲۰۲۵-۲۰۲۶ هستن. یه Agent فقط جواب نمی‌ده — تصمیم می‌گیره و عمل می‌کنه. پروژه شما در واقع یه Agent هست، نه یه چت‌بات ساده. سری ساخت AI Agent همه جزئیات رو پوشش می‌ده.

Agent — عامل

یه LLM که می‌تونه تصمیم بگیره و عمل کنه، نه فقط جواب بده. مثلاً Agent می‌تونه تصمیم بگیره «الان باید به دیتابیس بزنم»، «باید این کار رو انجام بدم»، «باید به کاربر پیام بدم». تفاوتش با چت‌بات: چت‌بات فقط جواب می‌ده، Agent تصمیم می‌گیره و اجرا می‌کنه.

Agent ها می‌تونن از ابزارها (Tools) استفاده کنن، حافظه داشته باشن، و کارهای چندمرحله‌ای انجام بدن. سری ساخت AI Agent رو ببین برای یادگیری عملی.

Agent Loop — حلقه عامل

الگوی اصلی عملکرد Agent. یه چرخه تکراری: «فکر کن (Reason) → تصمیم بگیر (Act) → نتیجه رو ببین (Observe) → دوباره فکر کن». Agent این حلقه رو تکرار می‌کنه تا کار رو کامل کنه یا جواب نهایی رو بده.

مثلاً Agent وقتی سوالی می‌پرسه: اول فکر می‌کنه «باید توی دیتابیس جستجو کنم»، بعد ابزار جستجو رو صدا می‌زنه، نتیجه رو می‌بینه، تصمیم می‌گیره کافیه یا نه، و اگه نه دوباره عمل می‌کنه.

Tool Use / Function Calling — استفاده از ابزار

قابلیت LLM برای صدا زدن ابزارهای خارجی. مثلاً مدل تصمیم می‌گیره «باید آب‌وهوا رو چک کنم» و تابع get_weather() رو صدا می‌زنه. بعد نتیجه رو می‌گیره و جواب می‌ده. مدل‌های مدرن (GPT-5, Claude, Qwen) این قابلیت رو دارن.

Tool Use همون چیزیه که Agent رو از چت‌بات جدا می‌کنه. بدون Tool Use، مدل فقط می‌تونه حرف بزنه. با Tool Use، می‌تونه کار انجام بده — جستجو کنه، محاسبه کنه، API صدا بزنه، ایمیل بفرسته.

MCP — Model Context Protocol

پروتکلی که Anthropic معرفی کرد برای استانداردسازی اتصال LLM ها به ابزارها و منابع داده. قبل از MCP، هر شرکت روش خودش رو داشت. MCP یه استاندارد مشترکه — مثل USB برای دستگاه‌ها، MCP برای AI Tools هست.

MCP هنوز جدیده ولی داره به سرعت پذیرفته می‌شه. اگه می‌خوای Agent بسازی، آشنایی با MCP مفیده.

Memory — حافظه Agent

Agent ها بدون حافظه، هر بار از صفر شروع می‌کنن (مثل ماهی قرمز). حافظه دو نوعه: Short-term Memory (تاریخچه همین گفتگو، محدود به Context Window) و Long-term Memory (اطلاعاتی که بین جلسات مختلف ذخیره می‌شه، معمولاً توی دیتابیس).

پیاده‌سازی Long-term Memory یکی از چالش‌های اصلی ساخت Agent هاست. باید بدونی چی رو ذخیره کنی، کِی فراموش کنی، و چطور بازیابی کنی.

Planning — برنامه‌ریزی

توانایی Agent برای شکستن یه کار بزرگ به مراحل کوچک‌تر. مثلاً «یه گزارش تحلیلی بنویس» رو بشکنه به: ۱) داده‌ها رو جمع کن ۲) تحلیل کن ۳) نمودار بساز ۴) گزارش بنویس. LLM های قوی‌تر Planning بهتری دارن.

Planning یکی از سخت‌ترین بخش‌های ساخت Agent هست. مدل ممکنه برنامه‌ریزی بد کنه — مراحل رو جا بندازه، ترتیب اشتباه بذاره، یا درحلقه گیر کنه. به همین دلیل Agent های خوب باید «خودنقد» باشن و برنامه‌شون رو ارزیابی کنن.

Multi-Agent — چند عامل

سیستمی که چند Agent با هم کار می‌کنن. مثلاً یه Agent «نویسنده» پیش‌نویس می‌نویسه، Agent «ویرایشگر» بررسی می‌کنه، و Agent «ناقد» نقد می‌کنه. هر کدوم تخصص خودشون رو دارن و با هم نتیجه بهتری تولید می‌کنن.

Multi-Agent هنوز تجربیه و پیچیدگی‌های خودش رو داره (هماهنگی، هزینه، دیباگ). ولی برای کارهای پیچیده نتایج خیلی بهتری از تک Agent می‌ده.

Human-in-the-Loop — انسان در حلقه

طراحی سیستم به شکلی که انسان در نقاط حساس تأیید کنه. Agent قبل از ارسال ایمیل، تأیید بگیره. قبل از خرید، تأیید بگیره. این مدل «نیمه‌خودکار» برای اکثر پروژه‌های واقعی بهینه‌ترین رویکرده — مخصوصاً وقتی ریسک تصمیم بالاست.

Human-in-the-Loop فقط درباره Agent نیست. توی Fine-tuning هم وقتی انسان‌ها جواب‌ها رو بررسی و اصلاح می‌کنن، Human-in-the-Loop هست. توی RAG هم وقتی کاربر بازخورد «جواب مفید بود/نبود» می‌ده.

Guardrails — محافظ‌ها

مکانیزم‌هایی برای محدود کردن رفتار Agent/LLM. مثلاً: «هرگز اطلاعات مالی توصیه نکن»، «حداکثر ۳ بار API رو صدا بزن»، «اگه مطمئن نیستی، بپرس». Guardrails هم توی System Prompt (نرم) و هم توی کد (سخت) پیاده‌سازی می‌شن.

بدون Guardrails، Agent ممکنه کارهای غیرمنتظره بکنه — حلقه بی‌نهایت بره، هزینه زیادی تولید کنه، یا جواب نامناسب بده. هر Agent باید حداقل محدودیت تعداد مراحل و timeout داشته باشه.

Orchestration — ارکستراسیون

مدیریت و هماهنگی جریان کار بین LLM، ابزارها، داده‌ها و API ها. فریمورک‌هایی مثل LangChain، LlamaIndex و CrewAI ابزارهای Orchestration هستن. اونا به تو کمک می‌کنن بدون نوشتن همه چیز از صفر، pipeline های AI بسازی.

Orchestration مهمه ولی زیاد وابسته فریمورک نشو. فهمیدن مفاهیم مهم‌تر از فریمورکه — فریمورک‌ها عوض می‌شن، مفاهیم می‌مونن.

تشبیه

Agent مثل یه کارمند باهوشه: ابزار داره (Tool Use)، حافظه داره (Memory)، برنامه‌ریزی می‌کنه (Planning)، و وقتی مطمئن نیست از مدیرش تأیید می‌گیره (Human-in-the-Loop). Guardrails هم مثل قوانین شرکته — محدوده‌ای که نباید ازش فراتر بره.

۸. معماری و زیرساخت

اصطلاحات ۸۷ تا ۹۶

تا اینجا مفاهیم و مدل‌ها و تکنیک‌ها رو شناختی. ولی همه اینا روی سخت‌افزار و زیرساخت اجرا می‌شن. این بخش اصطلاحاتی رو پوشش می‌ده که وقتی از «اجرای مدل» صحبت می‌شه، باید بدونی. نگران نباش — قرار نیست مهندس زیرساخت بشی، فقط بدونی اصطلاحات چی هستن.

GPU — واحد پردازش گرافیکی

Graphics Processing Unit. اصلاً برای بازی و گرافیک ساخته شد ولی معلوم شد برای محاسبات موازی (مثل آموزش شبکه عصبی) فوق‌العاده‌ست. NVIDIA رهبر بلامنازع GPU های AI هست. کارت‌های سری A100، H100 و H200 استانداردهای صنعتی هستن.

چرا GPU و نه CPU؟ چون GPU هزاران هسته کوچک داره که همزمان کار می‌کنن. آموزش شبکه عصبی میلیاردها ضرب ماتریسی نیاز داره — GPU این کار رو هزاران برابر سریع‌تر از CPU انجام می‌ده.

VRAM — حافظه GPU

Video RAM. حافظه اختصاصی GPU. وقتی می‌گیم «این مدل ۲۴ گیگ VRAM نیاز داره» یعنی باید کارت گرافیکی با حداقل ۲۴ گیگ حافظه داشته باشی. VRAM معمولاً گلوگاهه — نه سرعت GPU بلکه حافظه‌اش محدودکننده‌ست.

کارت‌های مصرفی (مثل RTX 4090) حداکثر ۲۴ گیگ VRAM دارن. کارت‌های سرور (مثل A100) تا ۸۰ گیگ. به همین دلیل Quantization خیلی مهمه — مدل رو کوچک‌تر می‌کنه تا توی VRAM جا بشه.

Latency و Throughput

Latency: زمانی که طول می‌کشه تا اولین توکن جواب بیاد (Time to First Token). کاربر نباید زیاد منتظر بمونه. Throughput: تعداد توکن‌هایی که در ثانیه تولید می‌شن. هر دو مهمن ولی بسته به کاربرد، یکی اولویت داره.

برای چت‌بات، Latency مهم‌تره (کاربر نباید ۵ ثانیه منتظر بمونه). برای پردازش دسته‌ای (مثل تحلیل هزار ایمیل)، Throughput مهم‌تره.

Model Serving — سرو مدل

پروسه اجرای مدل و ارائه‌اش به عنوان سرویس (معمولاً API). ابزارهایی مثل vLLM (محبوب‌ترین)، TGI (HuggingFace)، و Ollama (ساده‌ترین برای لوکال) برای این کار ساخته شدن.

Ollama مناسب آزمایش لوکاله — با یه دستور مدل رو دانلود و اجرا می‌کنه. برای Production، vLLM بهتره چون بهینه‌سازی‌های زیادی داره (مثل Continuous Batching و PagedAttention).

Edge AI — هوش مصنوعی لبه‌ای

اجرای مدل AI روی دستگاه کاربر (موبایل، IoT، لپ‌تاپ) به جای Cloud. مزیت‌ها: سرعت بالا (بدون تأخیر شبکه)، حریم خصوصی (داده از دستگاه خارج نمی‌شه)، و کار بدون اینترنت. محدودیت: قدرت محاسباتی محدود.

Apple Intelligence روی iPhone یه مثال Edge AI هست. مدل‌های کوچک (3B-7B) با Quantization می‌تونن روی گوشی اجرا بشن. روند بازار به سمت ترکیب Edge + Cloud هست.

آیا می‌دونستی؟

Edge AI فقط درباره موبایل نیست. ماشین‌های خودران، دوربین‌های امنیتی و حتی یخچال‌های هوشمند همه Edge AI هستن. هر جایی که مدل روی خود دستگاه اجرا می‌شه (نه Cloud)، Edge AI هست.

MoE — Mixture of Experts

معماری‌ای که مدل رو به چند «متخصص» (Expert) تقسیم می‌کنه. برای هر ورودی، فقط یکی-دوتا متخصص فعال می‌شن (نه همه). نتیجه: مدل خیلی بزرگ می‌شه (مثلاً ۱.۶T پارامتر مثل DeepSeek V4) ولی هر بار فقط بخش کوچکی فعاله — پس سرعتش مثل مدل‌های کوچک‌تره.

MoE ایده‌ای هست که بهترین‌ها ازش استفاده می‌کنن. GPT-4 هم احتمالاً MoE هست (OpenAI تأیید نکرده ولی شواهد قوی وجود داره).

Distillation — تقطیر مدل

فرایند ساخت مدل کوچک از مدل بزرگ. مدل بزرگ (Teacher) جواب‌ها رو تولید می‌کنه و مدل کوچک (Student) یاد می‌گیره مثل استاد جواب بده. نتیجه: مدلی کوچک‌تر و سریع‌تر که کیفیتش نزدیک مدل بزرگه.

خیلی از مدل‌های کوچک محبوب (مثل Phi و Gemma) با Distillation ساخته شدن. اگه می‌خوای مدل سریع و ارزون داشته باشی، Distillation یه گزینه‌ست.

GGUF — فرمت مدل

فرمت فایل برای ذخیره مدل‌های Quantized شده. llama.cpp و Ollama از GGUF استفاده می‌کنن. وقتی توی HuggingFace دنبال مدل می‌گردی و «GGUF» می‌بینی، یعنی اون مدل آماده اجرای لوکاله.

GGUF جایگزین فرمت قبلی GGML هست. مزیتش: فایل واحد، ساده‌ترین راه اجرای مدل روی CPU یا GPU محدود.

Scaling Laws — قوانین مقیاس

کشف مهمی که نشون می‌ده عملکرد مدل به شکل قابل پیش‌بینی با افزایش سه چیز بهتر می‌شه: اندازه مدل (بیشتر پارامتر)، حجم داده (بیشتر Training Data)، و محاسبات (بیشتر GPU ساعت). این قوانین توسط OpenAI و DeepMind کشف شدن.

Scaling Laws دلیلیه که شرکت‌ها مدل‌های بزرگ‌تر و بزرگ‌تر می‌سازن — چون می‌دونن بزرگ‌تر = بهتر (تا حدی). البته «تا حدی» مهمه — ممکنه در آینده به سقفی برسیم.

HuggingFace — هاب مدل‌ها

بزرگ‌ترین پلتفرم اشتراک‌گذاری مدل‌ها، Dataset ها و ابزارهای AI. مثل GitHub برای کد، HuggingFace برای مدل‌ها و داده‌هاست. تقریباً هر مدل اوپن‌سورسی رو اینجا پیدا می‌کنی.

HuggingFace همچنین کتابخانه transformers رو می‌سازه — مهم‌ترین کتابخانه Python برای کار با مدل‌های AI. اگه با مدل‌های اوپن‌سورس کار می‌کنی، HuggingFace خونه دوم‌ته.

نکته

نیاز نیست همه اینا رو عملی بدونی. اگه مدیر کسب‌وکار هستی، کافیه بدونی GPU و VRAM چیه، Quantization یعنی چی و هزینه واقعی اجرای مدل چقدره. اگه توسعه‌دهنده هستی، توی سری از صفر تا متخصص AI همه اینا رو عملی یاد می‌گیری.

۹. کسب‌وکار و کاربرد

اصطلاحات ۹۷ تا ۱۰۸

آخرین بخش فرهنگ لغت هوش مصنوعی، ولی شاید مهم‌ترین برای خیلی از شما. اصطلاحاتی که وقتی AI رو وارد کسب‌وکار واقعی می‌کنی باید بدونی. اگه مدیر هستی، این بخش رو دو بار بخون. سری AI برای مدیران هم برات نوشتم.

AI Readiness — آمادگی AI

ارزیابی اینکه سازمان تو چقدر آماده پیاده‌سازی AI هست. شامل: کیفیت داده‌ها، زیرساخت فنی، مهارت تیم، فرهنگ سازمانی و بودجه. خیلی از پروژه‌های AI شکست می‌خورن نه به خاطر تکنولوژی، بلکه به خاطر عدم آمادگی سازمان.

قبل از شروع هر پروژه AI، یه ارزیابی AI Readiness انجام بده. اگه داده‌هات توی اکسل‌های پراکنده‌ست و تیمت با API آشنا نیست، اول زیرساخت رو درست کن. مقاله «چرا هر کسب‌وکاری به AI نیاز نداره» این موضوع رو مفصل بررسی می‌کنه.

POC — Proof of Concept

یه پروژه کوچک آزمایشی برای اثبات اینکه ایده عملی هست. قبل از اینکه ۶ ماه و میلیون‌ها تومان خرج کنی، یه POC بساز. ۲-۴ هفته، scope محدود، هدف مشخص: «آیا AI می‌تونه این مشکل رو حل کنه؟»

خیلی از پروژه‌های AI باید اول POC بشن. مثلاً قبل از ساخت سیستم پشتیبانی AI کامل، یه POC بساز که فقط ۱۰ تا سوال متداول رو جواب بده. اگه نتیجه خوب بود، بزرگش کن.

Use Case — مورد استفاده

یه سناریوی مشخص که AI قراره حلش کنه. «پشتیبانی مشتری» Use Case نیست — خیلی کلیه. «پاسخگویی خودکار به ۲۰ سوال متداول درباره مرجوعی کالا» Use Case خوبیه — مشخص، محدود و قابل اندازه‌گیری.

تعریف Use Case خوب مهم‌ترین قدم اول هر پروژه AI هست. Use Case مبهم = پروژه شکست‌خورده. Use Case مشخص = شانس موفقیت بالا.

100

Vendor Lock-in — وابستگی به تأمین‌کننده

وقتی کل سیستمت وابسته به یه شرکت خاص بشه و نتونی راحت عوضش کنی. مثلاً اگه همه چیزت رو روی OpenAI API بسازی و یه روز قیمت‌ها ۱۰ برابر بشه یا سرویس قطع بشه، گیر می‌کنی.

راه‌حل: معماری رو طوری طراحی کن که تعویض مدل آسون باشه. از abstraction layer استفاده کن. بخشی از سیستم رو با مدل‌های open-source اجرا کن. تخم‌مرغ‌هات رو توی یه سبد نذار.

هشدار

Vendor Lock-in یکی از بزرگ‌ترین ریسک‌های پروژه‌های AI هست. OpenAI هفته‌ای قیمت عوض می‌کنه. Anthropic ممکنه API رو deprecate کنه. همیشه Plan B داشته باش. ۱۰ اشتباه رایج AI همین رو هم پوشش می‌ده.

101

TCO — Total Cost of Ownership

هزینه واقعی و کامل پروژه AI. فقط هزینه API نیست. شامل: توسعه، نگهداری، زیرساخت، مانیتورینگ، آپدیت داده‌ها، آموزش تیم و پشتیبانی. خیلی از مدیرها فقط هزینه API رو می‌بینن و بعداً شوکه می‌شن.

یه مثال: هزینه API ماهانه ممکنه ۵۰۰ دلار باشه، ولی توسعه‌دهنده‌ای که باید نگهداری کنه ماهانه ۳۰۰۰ دلار هزینه داره. TCO واقعی ۷ برابر هزینه API هست. سری AI برای مدیران این رو مفصل بررسی می‌کنه.

تشبیه

TCO مثل هزینه واقعی ماشینه. خرید ماشین ۵۰۰ میلیونه ولی بیمه + بنزین + تعمیرات + پارکینگ ماهانه ۵ میلیونه. بعد ۵ سال، هزینه واقعی ۸۰۰ میلیونه نه ۵۰۰. AI هم همینطوره — هزینه API فقط بخشی از TCO هست.

102

ROI — بازگشت سرمایه

Return on Investment. چقدر سود از سرمایه‌گذاری AI برگشته؟ محاسبه ROI برای AI سخته چون بخشی از مزایا کیفیه (رضایت مشتری، سرعت) و قابل اندازه‌گیری مستقیم نیست.

توصیه: قبل از شروع، معیارهای موفقیت (KPI) رو مشخص کن. مثلاً: «زمان پاسخگویی از ۲۴ ساعت به ۲ دقیقه کاهش پیدا کنه» یا «۳۰٪ تماس‌ها بدون نیاز به اپراتور پاسخ داده بشن». اینا رو بعداً اندازه بگیر.

103

MVP — حداقل محصول قابل عرضه

Minimum Viable Product. ساده‌ترین نسخه‌ای از محصول AI که واقعاً کار می‌کنه و می‌شه به کاربر نشون داد. بعد از POC (اثبات مفهوم)، MVP مرحله بعدیه — یه محصول واقعی ولی با حداقل امکانات.

MVP برای AI مخصوصاً مهمه چون رفتار سیستم رو با کاربران واقعی می‌بینی. ممکنه توی تست داخلی عالی کار کنه ولی کاربران واقعی سوالاتی بپرسن که پیش‌بینی نکرده بودی.

104

Deployment — استقرار

رسوندن مدل از محیط توسعه به محیط واقعی (Production). شامل: انتخاب زیرساخت، بهینه‌سازی سرعت، مانیتورینگ، مدیریت خطا و بروزرسانی. خیلی از پروژه‌های AI توی Deployment شکست می‌خورن — نه توی ساخت.

Deployment فقط «آپلود کردن کد» نیست. باید Latency قابل قبول باشه، هزینه منطقی باشه، و سیستم باید بدون توقف ۲۴/۷ کار کنه. مانیتورینگ مدل هم مهمه — عملکرد مدل ممکنه با گذشت زمان افت کنه (Model Drift).

نکته عملی

Deployment رو از همون اول برنامه‌ریزی کن. خیلی‌ها مدل رو توی Jupyter Notebook می‌سازن و بعد فکر می‌کنن «حالا چطور ببرمش Production؟». از اول فکر کن به: API، مانیتورینگ، اتوماتیک آپدیت، و هزینه.

105

Model Drift — تغییر عملکرد مدل

وقتی عملکرد مدل با گذشت زمان بدتر می‌شه. چرا؟ چون دنیا عوض می‌شه. محصولات جدید میان، قیمت‌ها تغییر می‌کنن، رفتار مشتری‌ها عوض می‌شه. مدلی که ۶ ماه پیش عالی بود، ممکنه الان ضعیف عمل کنه.

راه‌حل: مانیتورینگ مداوم + بروزرسانی دوره‌ای داده‌ها. مخصوصاً توی RAG، داده‌ها باید مرتب آپدیت بشن.

106

Responsible AI — هوش مصنوعی مسئولانه

مجموعه اصولی برای توسعه اخلاقی AI: شفافیت (چرا این تصمیم رو گرفتی؟)، عدالت (Bias نداشته باشه)، حریم خصوصی (داده کاربر محفوظه)، و پاسخگویی (کسی مسئول خروجی مدله). مخصوصاً وقتی AI درباره آدم‌ها تصمیم می‌گیره مهمه.

قوانین AI در اروپا (AI Act) و سایر کشورها داره سخت‌تر می‌شه. هرچه زودتر Responsible AI رو جدی بگیری، بهتره.

107

Bias — تعصب

وقتی مدل نسبت به گروهی تبعیض داره. Bias معمولاً از داده آموزشی میاد — اگه داده‌ها متعصبانه باشن، مدل هم متعصب می‌شه. مثلاً مدلی که بیشتر روی متن انگلیسی آموزش دیده، ممکنه فارسی رو بدتر بفهمه — این یه نوع Bias زبانیه.

Bias فقط نژادی و جنسیتی نیست. ممکنه جغرافیایی، زبانی، اقتصادی یا فرهنگی باشه. توی پروژه‌های ایرانی، Bias مدل نسبت به زبان و فرهنگ فارسی یکی از چالش‌های جدیه.

108

Tokens per Dollar — اقتصاد توکن

معیاری برای مقایسه هزینه مدل‌ها. مثلاً GPT-5 ممکنه هر ۱ میلیون توکن ورودی ۱۰ دلار باشه ولی Claude Sonnet ۳ دلار. ولی فقط قیمت مهم نیست — کیفیت خروجی، سرعت و Context Window هم مهمه.

قیمت‌ها دائماً پایین میاد. سال ۲۰۲۳ هزینه ۱ میلیون توکن حدود ۶۰ دلار بود، الان ممکنه ۳ دلار باشه. این روند ادامه داره و AI هر ماه ارزون‌تر می‌شه — برای کسب‌وکارها خبر خوبیه.

قدم بعدی تو چیه؟

اگه مدیر کسب‌وکار هستی، سری AI برای مدیران بهترین شروعه. اگه توسعه‌دهنده هستی، سری از صفر تا متخصص AI رو دنبال کن. و اگه می‌خوای RAG یا Fine-tuning رو عملی یاد بگیری، سری‌های RAG از صفر تا پروداکشن و Fine-tuning عملی رو ببین.

جمع‌بندی

این فرهنگ لغت هوش مصنوعی با بیش از ۱۰۰ اصطلاح، یه مرجع کامل برای ورود به دنیای AI هست. از پایه‌ای‌ترین مفاهیم مثل Machine Learning و Neural Network شروع کردیم، رفتیم سراغ LLM ها و مدل‌های معروف، تکنیک‌ها رو شناختیم، RAG و Fine-tuning و Agent رو یاد گرفتیم، و با مفاهیم کسب‌وکاری تموم کردیم.

یه چیزی رو فراموش نکن: دونستن اصطلاحات فقط شروعه. مهم اینه که دست‌هات رو کثیف کنی و عملی کار کنی. یه RAG ساده بساز. یه مدل رو Fine-tune کن. یه Agent ساده بساز. هر کدوم از این کارها ده‌ها برابر بیشتر از خوندن بهت یاد می‌ده.

این صفحه زنده‌ست

دنیای AI هر هفته عوض می‌شه. این فرهنگ لغت هوش مصنوعی مرتب آپدیت می‌شه — اصطلاحات جدید اضافه می‌شن، توضیحات بهتر می‌شن. اگه اصطلاحی رو ندیدی که باید باشه، بهم بگو.

اگه از این مطلب خوشت اومد، سری‌های آموزشی رو هم ببین:

از صفر تا متخصص توسعه AI — برای توسعه‌دهنده‌ها
RAG از صفر تا پروداکشن — عمیق‌ترین آموزش RAG فارسی
AI برای مدیران — بدون کد، فقط مفاهیم و استراتژی
ساخت AI Agent — از Agent ساده تا Multi-Agent
Fine-tuning عملی — LoRA، QLoRA، DPO با جزئیات