کسب‌وکار ۱۶ دقیقه مطالعه

هزینه واقعی API های هوش مصنوعی — چقدر باید بودجه بذاری؟

چرا این مقاله رو بخونی؟

یه کارآفرین تماس گرفت، صداش از تلفن می‌لرزید. «مهدی، چت‌بات راه انداختیم، ماه اول فاکتور OpenAI شد ۸۷۰ دلار. ماه دوم ۲۴۰۰ دلار. الان دیگه دارم می‌ترسم لاگین کنم. این چه قیمت‌گذاری دیوونه‌ایه؟»

این یکی از رایج‌ترین شوک‌هاییه که کسب‌وکارها بعد از پیاده‌سازی AI می‌خورن. توی نگاه اول، API های AI ارزون به‌نظر می‌رسن — «هر ۱۰۰۰ توکن چند سنت». ولی توی عمل، فاکتور آخر ماه می‌تونه چند برابر اون چیزی باشه که توی اکسل تخمین زده بودی.

توی این مقاله بهت می‌گم هزینه واقعی API های AI چطور حساب می‌شه، چرا تخمین‌های اولیه معمولاً اشتباهه، و چطور بدون قطع کیفیت، هزینه‌ت رو نصف کنی.

برای کی نوشتم؟
این مقاله هم برای صاحبان کسب‌وکار و مدیرانیه که می‌خوان بودجه پروژه AI بریزن، هم برای توسعه‌دهنده‌هایی که از قیمت‌های نهایی متعجب شدن. نیاز به دانش فنی عمیق نداری — ولی اگه می‌خوای عمیق‌تر بدونی Token چیه، سری از صفر تا متخصص توسعه AI رو ببین.

چرا قیمت‌گذاری API های AI گیج‌کننده‌ست

توی کسب‌وکار سنتی، قیمت‌گذاری ساده‌ست. یه برنامه‌نویس ماهی X تومن می‌گیره. یه سرور ماهی Y تومن. یه نفر اپراتور پشتیبانی Z تومن.

ولی AI یه چیز عجیب داره: هزینه‌ش به مصرف بستگی داره، و مصرف به سختی قابل پیش‌بینیه.

تشبیه
قیمت‌گذاری API های AI مثل قیمت بنزینه — ولی تو نمی‌دونی مسیر فردا چقدر طولانیه و ماشینت چقدر بنزین می‌خوره. هر سفر یه مقدار متفاوت می‌سوزه و آخر ماه فاکتور برمی‌گرده.

سه عامل کلیدی هزینه‌ت رو تعیین می‌کنن:

۱. تعداد توکن‌ها (Tokens): توکن یه واحد متنه — تقریباً معادل ۳ تا ۴ حرف انگلیسی. برای فارسی به خاطر ناکارآمدی tokenization، هر کلمه فارسی معمولاً ۲ تا ۴ توکن می‌شه (یعنی فارسی همیشه گرون‌تر از انگلیسی تموم می‌شه). هر بار که از API استفاده می‌کنی، هم متن ورودی (Input) و هم متن خروجی (Output) شمارش می‌شه.

۲. کدوم مدل رو انتخاب کردی: بهترین مدل‌ها (مثل Claude Opus یا GPT-5) چند برابر گرون‌ترن از مدل‌های کوچیک‌تر. فرق قیمت می‌تونه از ۲۰ تا ۱۰۰ برابر باشه.

نکته فارسی
اگه محصولت فارسیه، این نکته مهمه: یه پیام فارسی ۲ تا ۳ برابر یه پیام انگلیسی هم‌معنی توکن می‌سوزونه. توی تخمین بودجه‌ت این رو در نظر بگیر.

۳. هر بار چقدر Context می‌فرستی: اگه برای جواب دادن به یه سوال ۵۰ صفحه سند بفرستی، هر بار ۵۰ صفحه شمارش می‌شه. حتی برای یه «سلام» ساده.

سه مدل قیمت‌گذاری اصلی

قبل از این‌که بریم سراغ مقایسه، یه چیز ساده رو بدون: سه مدل قیمت‌گذاری اصلی داری.

۱. Pay-per-Token (پرداخت به‌ازای توکن): رایج‌ترین مدل. OpenAI، Anthropic، Google همه این مدل رو دارن. هر ۱ میلیون توکن یه قیمت مشخص داره. توکن خروجی معمولاً ۳ تا ۵ برابر گرون‌تر از ورودیه (چون مدل برای تولید هر توکن باید واقعاً «فکر کنه»).

۲. اشتراک ثابت (Subscription): ChatGPT Plus یا Claude Pro — ماهی ۲۰ دلار. برای استفاده انسانی خوبه ولی برای ساختن محصول و API کار نمی‌کنه. تعداد پیام محدوده.

۳. Self-hosting (میزبانی روی سرور خودت): مدل‌های اوپن‌سورس مثل Llama، Qwen، DeepSeek رو روی سرور خودت اجرا می‌کنی. هزینه‌ش ثابته (سرور با GPU) و وابسته به مصرف نیست. ولی نیاز به دانش فنی و سرمایه‌گذاری اولیه داره.

نکته
برای استارت‌اپ‌ها و POC ها همیشه با Pay-per-Token شروع کن. وقتی مصرفت به یه آستانه مشخصی رسید (معمولاً بالای ۲۰۰۰ دلار در ماه)، بررسی self-hosting رو شروع کن.

مقایسه ارائه‌دهنده‌های اصلی

قیمت‌ها دائم تغییر می‌کنن، ولی نسبت قیمت‌ها نسبتاً پایداره. این جدول رو به‌عنوان راهنمای نسبی نگاه کن، نه قیمت دقیق:

ارائه‌دهنده مدل پرچم‌دار مدل اقتصادی نقطه قوت
Anthropic Claude Opus Claude Haiku کیفیت بالا در reasoning، Context window عظیم
OpenAI GPT-5 GPT-5 Mini سرعت، اکوسیستم گسترده
Google Gemini Pro Gemini Flash قیمت پایین، Context window خیلی بزرگ
DeepSeek DeepSeek V3 DeepSeek Chat قیمت خیلی پایین، اوپن‌سورس
Qwen (علی‌بابا) Qwen Max Qwen Turbo فارسی خوب، قیمت رقابتی

یه قانون ساده: مدل‌های پرچم‌دار تقریباً ۵ تا ۱۰ برابر گرون‌تر از مدل‌های اقتصادی همون شرکت هستن. ولی برای ۸۰ درصد کارها، مدل اقتصادی کافیه.

هشدار
قیمت پایین‌تر همیشه یعنی صرفه‌جویی نیست. اگه مدل ارزون مجبور بشه ۳ بار اشتباه کنه تا جواب درست بده، در عمل گرون‌تر تموم می‌شه. کیفیت رو با هزینه نهایی بسنج، نه قیمت تک واحد.

محاسبه واقعی هزینه — سه سناریو

اگه از عدد و درصد بدت می‌آد، نگران نباش — سه تا مثال ملموس می‌چینیم با هم. این اعداد تقریبی هستن (و خودم همیشه ضریب احتیاط روشون می‌ذارم)، ولی منطقشون درسته و کمکت می‌کنه تخمین بزنی.

سناریوی ۱: چت‌بات پشتیبانی فروشگاه آنلاین

یه فروشگاه آنلاین متوسط با ۵۰۰۰ مشتری در ماه. تقریباً ۳۰٪ مشتری‌ها سوال می‌پرسن. هر گفتگو میانگین ۸ پیام داره. هر پیام تقریباً ۲۰۰ توکن ورودی + ۳۰۰ توکن خروجی.

محاسبه:

  • گفتگوهای ماهانه: ۱۵۰۰
  • توکن کل: ۱۵۰۰ × ۸ × ۵۰۰ = ۶ میلیون توکن
  • با مدل اقتصادی: تقریباً ۵ تا ۱۵ دلار در ماه
  • با مدل پرچم‌دار: تقریباً ۱۰۰ تا ۲۵۰ دلار در ماه

توصیه: برای این کار مدل اقتصادی کافیه. اضافه کردن RAG برای جستجو در FAQ ها هزینه رو حدود ۲۰٪ اضافه می‌کنه ولی کیفیت رو خیلی بالاتر می‌بره.

سناریوی ۲: تحلیل قراردادهای حقوقی

یه دفتر حقوقی که می‌خواد ۲۰۰ قرارداد در ماه (هر کدوم ۳۰ صفحه) رو تحلیل کنه. هر قرارداد تقریباً ۲۰،۰۰۰ توکن.

محاسبه:

  • توکن ورودی: ۲۰۰ × ۲۰۰۰۰ = ۴ میلیون توکن
  • توکن خروجی (تحلیل ۲ صفحه‌ای): ۲۰۰ × ۱۵۰۰ = ۳۰۰ هزار توکن
  • با مدل اقتصادی: ۵ تا ۱۵ دلار در ماه
  • با مدل پرچم‌دار: ۸۰ تا ۲۰۰ دلار در ماه

توصیه: اینجا مدل پرچم‌دار ارزش پولش رو داره. اشتباه توی تحلیل حقوقی هزینه‌ش خیلی بیشتر از ۳۰۰ دلار اضافه‌ست.

سناریوی ۳: Agent خودکار برای تحقیق بازار

یه آژانس مارکتینگ که می‌خواد روزانه ۱۰ گزارش بازار خودکار تولید کنه. هر گزارش نیاز به ۵۰ تا ۸۰ بار صدا زدن API داره (جستجو، خلاصه‌سازی، تحلیل).

محاسبه:

  • تماس‌های روزانه: ۱۰ × ۶۵ = ۶۵۰
  • توکن کل ماهانه: تقریباً ۲۰ میلیون توکن
  • با مدل اقتصادی: ۴۰ تا ۱۰۰ دلار در ماه
  • با مدل پرچم‌دار: ۵۰۰ تا ۱۲۰۰ دلار در ماه

توصیه: ترکیب: مدل اقتصادی برای جستجو و فیلتر اولیه، مدل پرچم‌دار فقط برای جمع‌بندی نهایی. این تکنیک معروف به Model Cascading هزینه رو تا ۷۰٪ کم می‌کنه.

۶ ترفند کاهش هزینه که واقعاً کار می‌کنن

حالا که فهمیدی اعداد چطور حساب می‌شن، بریم سراغ کاهش هزینه. این شش ترفند رو به ترتیب اولویت برات می‌گم:

۱. Prompt Caching (ذخیره موقت پرامپت): اگه قسمت ثابتی از پرامپتت تکرار می‌شه (مثلاً دستورالعمل سیستم یا یه سند مرجع)، Anthropic و OpenAI گزینه‌ای دارن که اون قسمت رو cache کنی. هزینه بخش cache شده تا ۹۰٪ کاهش پیدا می‌کنه.

۲. مدل کوچیک رو امتحان کن: این ساده‌ترین ترفنده ولی بیشتر کسب‌وکارها امتحانش نمی‌کنن. قبل از این‌که بری سراغ مدل پرچم‌دار، با مدل اقتصادی شروع کن. اگه ۸۰٪ کارها رو درست انجام داد، فقط ۲۰٪ سخت رو با مدل پرچم‌دار حل کن.

۳. Context رو خلاصه کن: اگه داری ۵۰ صفحه سند هر بار می‌فرستی، شاید نیازی نباشه. با RAG فقط ۲ تا ۳ صفحه مرتبط رو پیدا کن و بفرست. این تنهایی می‌تونه هزینه رو ۹۰٪ کم کنه.

۴. خروجی رو محدود کن: اگه جواب دو خط کافیه، توی پرامپت بگو «در ۲ جمله جواب بده». توکن خروجی ۳ تا ۵ برابر گرون‌تر از ورودیه — کنترلش خیلی مهمه.

۵. Batch Processing: برای کارهایی که فوری نیستن (مثل تحلیل شبانه)، OpenAI و Anthropic Batch API دارن که تا ۵۰٪ تخفیف می‌ده. جواب توی ۲۴ ساعت می‌رسه به‌جای ثانیه.

۶. Model Cascading (مدل آبشاری): اول با مدل ارزون تلاش کن. اگه مطمئن بود، همون رو استفاده کن. اگه مطمئن نبود، بفرست به مدل گرون. تقریباً ۶۰ تا ۷۰٪ سوالات با مدل ارزون حل می‌شن.

جمع کل صرفه‌جویی
اگه هر شش ترفند رو با هم اعمال کنی، می‌تونی هزینه‌ت رو به یک‌دهم اولیه برسونی. این یعنی فاکتور ۲۰۰۰ دلاری می‌شه ۲۰۰ دلار — بدون قطع کیفیت محسوس.

کی Self-host بهتره از API؟

این سوالیه که خیلی‌ها زود ازم می‌پرسن. جواب کوتاه: دیرتر از اون چیزی که فکر می‌کنی.

Self-host یعنی یه سرور با GPU بخری یا اجاره کنی، یه مدل اوپن‌سورس روش نصب کنی، و خودت تمام مسائل فنی رو حل کنی (آپتایم، scaling، آپدیت، امنیت). من خودم چند پروژه رو دیدم که زود رفتن سمت self-host و آخرش هزینه واقعی‌ش (با احتساب وقت DevOps و downtime) از API بیشتر شد.

هزینه‌های پنهان self-hosting:

  • اجاره ماهانه GPU: ۵۰۰ تا ۳۰۰۰ دلار (بسته به مدل)
  • حقوق DevOps: ماهی حداقل یه نفر نیمه‌وقت
  • زمان downtime و عیب‌یابی
  • هزینه آپدیت مدل به نسخه‌های جدید

قاعده سرانگشتی: اگه فاکتور ماهیانه API ت زیر ۱۵۰۰ دلاره، self-host نکن. اگه بالای ۵۰۰۰ دلاره، حتماً بررسی کن.

تشبیه
Self-hosting مثل خریدن کامیون شخصیه. اگه هفته‌ای یه بار بار می‌بری، اوبر کامیون بگیر. اگه روزانه ۱۰ بار باره، شاید کامیون شخصی منطقی باشه. ولی یادت باشه کامیون شخصی نیاز به راننده، تعمیرگاه و پارکینگ داره.

قاعده طلایی بودجه‌بندی AI

اگه فقط یه نکته از این مقاله یادت بمونه، این باشه: بودجه واقعی AI سه برابر تخمین اولیه‌ته.

چرا؟ چون:

  • کاربران بیشتر از انتظار سوال می‌پرسن
  • هر گفتگو طولانی‌تر از تصور می‌شه
  • برای کیفیت بهتر، پرامپت‌هات بزرگ‌تر می‌شن
  • تست و debugging خودش توکن می‌سوزونه
  • قابلیت‌های جدید اضافه می‌شه

تخمین اولیه‌ت رو حساب کن، ضرب در سه کن، اون رو به‌عنوان سقف بودجه توی API ست کن (هر دو ارائه‌دهنده اصلی این امکان رو دارن). این کار جلوی شوک‌های ناگهانی رو می‌گیره.

جمع‌بندی

هزینه واقعی API های AI پیچیده‌تر از قیمت روی صفحه ارائه‌دهنده‌ست — ولی غیرقابل پیش‌بینی هم نیست. اگه:

  • با مدل اقتصادی شروع کنی
  • Context رو محدود نگه داری
  • Prompt Caching و Batch API استفاده کنی
  • بودجه‌ت رو سه برابر تخمین اولیه بریزی
  • سقف هزینه ست کنی

می‌تونی AI رو با هزینه قابل کنترل وارد کسب‌وکارت کنی. کسب‌وکارهایی که اون شوک‌های ۲۴۰۰ دلاری رو می‌خورن، معمولاً هیچ‌کدوم از این کارها رو نکردن.

اگه پروژه‌ای داری و می‌خوای قبل از شروع یه نگاه سرسری به بودجه‌ش بندازی، خوشحال می‌شم توی یه جلسه مشاوره با هم بشینیم و یه تخمین تقریبی در بیاریم — هم این‌که چقدر باید بودجه بذاری، هم این‌که کجاها می‌تونی صرفه‌جویی کنی.

برای عمیق‌تر شدن:

نظرات

هنوز نظری ثبت نشده. اولین نفر باشید!

نظر خود را بنویسید