چرا این مقاله رو بخونی؟
یه کارآفرین تماس گرفت، صداش از تلفن میلرزید. «مهدی، چتبات راه انداختیم، ماه اول فاکتور OpenAI شد ۸۷۰ دلار. ماه دوم ۲۴۰۰ دلار. الان دیگه دارم میترسم لاگین کنم. این چه قیمتگذاری دیوونهایه؟»
این یکی از رایجترین شوکهاییه که کسبوکارها بعد از پیادهسازی AI میخورن. توی نگاه اول، API های AI ارزون بهنظر میرسن — «هر ۱۰۰۰ توکن چند سنت». ولی توی عمل، فاکتور آخر ماه میتونه چند برابر اون چیزی باشه که توی اکسل تخمین زده بودی.
توی این مقاله بهت میگم هزینه واقعی API های AI چطور حساب میشه، چرا تخمینهای اولیه معمولاً اشتباهه، و چطور بدون قطع کیفیت، هزینهت رو نصف کنی.
چرا قیمتگذاری API های AI گیجکنندهست
توی کسبوکار سنتی، قیمتگذاری سادهست. یه برنامهنویس ماهی X تومن میگیره. یه سرور ماهی Y تومن. یه نفر اپراتور پشتیبانی Z تومن.
ولی AI یه چیز عجیب داره: هزینهش به مصرف بستگی داره، و مصرف به سختی قابل پیشبینیه.
سه عامل کلیدی هزینهت رو تعیین میکنن:
۱. تعداد توکنها (Tokens): توکن یه واحد متنه — تقریباً معادل ۳ تا ۴ حرف انگلیسی. برای فارسی به خاطر ناکارآمدی tokenization، هر کلمه فارسی معمولاً ۲ تا ۴ توکن میشه (یعنی فارسی همیشه گرونتر از انگلیسی تموم میشه). هر بار که از API استفاده میکنی، هم متن ورودی (Input) و هم متن خروجی (Output) شمارش میشه.
۲. کدوم مدل رو انتخاب کردی: بهترین مدلها (مثل Claude Opus یا GPT-5) چند برابر گرونترن از مدلهای کوچیکتر. فرق قیمت میتونه از ۲۰ تا ۱۰۰ برابر باشه.
۳. هر بار چقدر Context میفرستی: اگه برای جواب دادن به یه سوال ۵۰ صفحه سند بفرستی، هر بار ۵۰ صفحه شمارش میشه. حتی برای یه «سلام» ساده.
سه مدل قیمتگذاری اصلی
قبل از اینکه بریم سراغ مقایسه، یه چیز ساده رو بدون: سه مدل قیمتگذاری اصلی داری.
۱. Pay-per-Token (پرداخت بهازای توکن): رایجترین مدل. OpenAI، Anthropic، Google همه این مدل رو دارن. هر ۱ میلیون توکن یه قیمت مشخص داره. توکن خروجی معمولاً ۳ تا ۵ برابر گرونتر از ورودیه (چون مدل برای تولید هر توکن باید واقعاً «فکر کنه»).
۲. اشتراک ثابت (Subscription): ChatGPT Plus یا Claude Pro — ماهی ۲۰ دلار. برای استفاده انسانی خوبه ولی برای ساختن محصول و API کار نمیکنه. تعداد پیام محدوده.
۳. Self-hosting (میزبانی روی سرور خودت): مدلهای اوپنسورس مثل Llama، Qwen، DeepSeek رو روی سرور خودت اجرا میکنی. هزینهش ثابته (سرور با GPU) و وابسته به مصرف نیست. ولی نیاز به دانش فنی و سرمایهگذاری اولیه داره.
مقایسه ارائهدهندههای اصلی
قیمتها دائم تغییر میکنن، ولی نسبت قیمتها نسبتاً پایداره. این جدول رو بهعنوان راهنمای نسبی نگاه کن، نه قیمت دقیق:
| ارائهدهنده | مدل پرچمدار | مدل اقتصادی | نقطه قوت |
|---|---|---|---|
| Anthropic | Claude Opus | Claude Haiku | کیفیت بالا در reasoning، Context window عظیم |
| OpenAI | GPT-5 | GPT-5 Mini | سرعت، اکوسیستم گسترده |
| Gemini Pro | Gemini Flash | قیمت پایین، Context window خیلی بزرگ | |
| DeepSeek | DeepSeek V3 | DeepSeek Chat | قیمت خیلی پایین، اوپنسورس |
| Qwen (علیبابا) | Qwen Max | Qwen Turbo | فارسی خوب، قیمت رقابتی |
یه قانون ساده: مدلهای پرچمدار تقریباً ۵ تا ۱۰ برابر گرونتر از مدلهای اقتصادی همون شرکت هستن. ولی برای ۸۰ درصد کارها، مدل اقتصادی کافیه.
محاسبه واقعی هزینه — سه سناریو
اگه از عدد و درصد بدت میآد، نگران نباش — سه تا مثال ملموس میچینیم با هم. این اعداد تقریبی هستن (و خودم همیشه ضریب احتیاط روشون میذارم)، ولی منطقشون درسته و کمکت میکنه تخمین بزنی.
سناریوی ۱: چتبات پشتیبانی فروشگاه آنلاین
یه فروشگاه آنلاین متوسط با ۵۰۰۰ مشتری در ماه. تقریباً ۳۰٪ مشتریها سوال میپرسن. هر گفتگو میانگین ۸ پیام داره. هر پیام تقریباً ۲۰۰ توکن ورودی + ۳۰۰ توکن خروجی.
محاسبه:
- گفتگوهای ماهانه: ۱۵۰۰
- توکن کل: ۱۵۰۰ × ۸ × ۵۰۰ = ۶ میلیون توکن
- با مدل اقتصادی: تقریباً ۵ تا ۱۵ دلار در ماه
- با مدل پرچمدار: تقریباً ۱۰۰ تا ۲۵۰ دلار در ماه
توصیه: برای این کار مدل اقتصادی کافیه. اضافه کردن RAG برای جستجو در FAQ ها هزینه رو حدود ۲۰٪ اضافه میکنه ولی کیفیت رو خیلی بالاتر میبره.
سناریوی ۲: تحلیل قراردادهای حقوقی
یه دفتر حقوقی که میخواد ۲۰۰ قرارداد در ماه (هر کدوم ۳۰ صفحه) رو تحلیل کنه. هر قرارداد تقریباً ۲۰،۰۰۰ توکن.
محاسبه:
- توکن ورودی: ۲۰۰ × ۲۰۰۰۰ = ۴ میلیون توکن
- توکن خروجی (تحلیل ۲ صفحهای): ۲۰۰ × ۱۵۰۰ = ۳۰۰ هزار توکن
- با مدل اقتصادی: ۵ تا ۱۵ دلار در ماه
- با مدل پرچمدار: ۸۰ تا ۲۰۰ دلار در ماه
توصیه: اینجا مدل پرچمدار ارزش پولش رو داره. اشتباه توی تحلیل حقوقی هزینهش خیلی بیشتر از ۳۰۰ دلار اضافهست.
سناریوی ۳: Agent خودکار برای تحقیق بازار
یه آژانس مارکتینگ که میخواد روزانه ۱۰ گزارش بازار خودکار تولید کنه. هر گزارش نیاز به ۵۰ تا ۸۰ بار صدا زدن API داره (جستجو، خلاصهسازی، تحلیل).
محاسبه:
- تماسهای روزانه: ۱۰ × ۶۵ = ۶۵۰
- توکن کل ماهانه: تقریباً ۲۰ میلیون توکن
- با مدل اقتصادی: ۴۰ تا ۱۰۰ دلار در ماه
- با مدل پرچمدار: ۵۰۰ تا ۱۲۰۰ دلار در ماه
توصیه: ترکیب: مدل اقتصادی برای جستجو و فیلتر اولیه، مدل پرچمدار فقط برای جمعبندی نهایی. این تکنیک معروف به Model Cascading هزینه رو تا ۷۰٪ کم میکنه.
۶ ترفند کاهش هزینه که واقعاً کار میکنن
حالا که فهمیدی اعداد چطور حساب میشن، بریم سراغ کاهش هزینه. این شش ترفند رو به ترتیب اولویت برات میگم:
۱. Prompt Caching (ذخیره موقت پرامپت): اگه قسمت ثابتی از پرامپتت تکرار میشه (مثلاً دستورالعمل سیستم یا یه سند مرجع)، Anthropic و OpenAI گزینهای دارن که اون قسمت رو cache کنی. هزینه بخش cache شده تا ۹۰٪ کاهش پیدا میکنه.
۲. مدل کوچیک رو امتحان کن: این سادهترین ترفنده ولی بیشتر کسبوکارها امتحانش نمیکنن. قبل از اینکه بری سراغ مدل پرچمدار، با مدل اقتصادی شروع کن. اگه ۸۰٪ کارها رو درست انجام داد، فقط ۲۰٪ سخت رو با مدل پرچمدار حل کن.
۳. Context رو خلاصه کن: اگه داری ۵۰ صفحه سند هر بار میفرستی، شاید نیازی نباشه. با RAG فقط ۲ تا ۳ صفحه مرتبط رو پیدا کن و بفرست. این تنهایی میتونه هزینه رو ۹۰٪ کم کنه.
۴. خروجی رو محدود کن: اگه جواب دو خط کافیه، توی پرامپت بگو «در ۲ جمله جواب بده». توکن خروجی ۳ تا ۵ برابر گرونتر از ورودیه — کنترلش خیلی مهمه.
۵. Batch Processing: برای کارهایی که فوری نیستن (مثل تحلیل شبانه)، OpenAI و Anthropic Batch API دارن که تا ۵۰٪ تخفیف میده. جواب توی ۲۴ ساعت میرسه بهجای ثانیه.
۶. Model Cascading (مدل آبشاری): اول با مدل ارزون تلاش کن. اگه مطمئن بود، همون رو استفاده کن. اگه مطمئن نبود، بفرست به مدل گرون. تقریباً ۶۰ تا ۷۰٪ سوالات با مدل ارزون حل میشن.
کی Self-host بهتره از API؟
این سوالیه که خیلیها زود ازم میپرسن. جواب کوتاه: دیرتر از اون چیزی که فکر میکنی.
Self-host یعنی یه سرور با GPU بخری یا اجاره کنی، یه مدل اوپنسورس روش نصب کنی، و خودت تمام مسائل فنی رو حل کنی (آپتایم، scaling، آپدیت، امنیت). من خودم چند پروژه رو دیدم که زود رفتن سمت self-host و آخرش هزینه واقعیش (با احتساب وقت DevOps و downtime) از API بیشتر شد.
هزینههای پنهان self-hosting:
- اجاره ماهانه GPU: ۵۰۰ تا ۳۰۰۰ دلار (بسته به مدل)
- حقوق DevOps: ماهی حداقل یه نفر نیمهوقت
- زمان downtime و عیبیابی
- هزینه آپدیت مدل به نسخههای جدید
قاعده سرانگشتی: اگه فاکتور ماهیانه API ت زیر ۱۵۰۰ دلاره، self-host نکن. اگه بالای ۵۰۰۰ دلاره، حتماً بررسی کن.
قاعده طلایی بودجهبندی AI
اگه فقط یه نکته از این مقاله یادت بمونه، این باشه: بودجه واقعی AI سه برابر تخمین اولیهته.
چرا؟ چون:
- کاربران بیشتر از انتظار سوال میپرسن
- هر گفتگو طولانیتر از تصور میشه
- برای کیفیت بهتر، پرامپتهات بزرگتر میشن
- تست و debugging خودش توکن میسوزونه
- قابلیتهای جدید اضافه میشه
تخمین اولیهت رو حساب کن، ضرب در سه کن، اون رو بهعنوان سقف بودجه توی API ست کن (هر دو ارائهدهنده اصلی این امکان رو دارن). این کار جلوی شوکهای ناگهانی رو میگیره.
جمعبندی
هزینه واقعی API های AI پیچیدهتر از قیمت روی صفحه ارائهدهندهست — ولی غیرقابل پیشبینی هم نیست. اگه:
- با مدل اقتصادی شروع کنی
- Context رو محدود نگه داری
- Prompt Caching و Batch API استفاده کنی
- بودجهت رو سه برابر تخمین اولیه بریزی
- سقف هزینه ست کنی
میتونی AI رو با هزینه قابل کنترل وارد کسبوکارت کنی. کسبوکارهایی که اون شوکهای ۲۴۰۰ دلاری رو میخورن، معمولاً هیچکدوم از این کارها رو نکردن.
اگه پروژهای داری و میخوای قبل از شروع یه نگاه سرسری به بودجهش بندازی، خوشحال میشم توی یه جلسه مشاوره با هم بشینیم و یه تخمین تقریبی در بیاریم — هم اینکه چقدر باید بودجه بذاری، هم اینکه کجاها میتونی صرفهجویی کنی.
برای عمیقتر شدن:
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید