GPT-5.5 Instant — مدل پیش‌فرض جدید ChatGPT با ۵۲٪ کاهش توهم

OpenAI یه قدم بزرگ برداشته: GPT-5.5 Instant جایگزین GPT-5.3 به عنوان مدل پیش‌فرض ChatGPT شده. و مهم‌ترین ویژگیش؟ ۵۲.۵٪ کاهش در توهم‌زدگی (Hallucination) توی حوزه‌های پزشکی، حقوقی و مالی. این یعنی مدل خیلی کمتر چیزی رو سرخود می‌بافه.

بذار صادق باشم: توهم‌زدگی بزرگ‌ترین مشکل مدل‌های زبانی بوده و هست. وقتی یه مدل AI با اعتماد به نفس بالا یه اطلاعات کاملاً غلط بهت می‌ده، نتیجه‌ش می‌تونه فاجعه‌بار باشه — مخصوصاً اگه حوزه حساسی مثل پزشکی یا حقوق باشه.

توهم‌زدگی AI دقیقاً چیه؟

وقتی می‌گیم یه مدل AI «توهم» می‌زنه، منظورمون اینه که اطلاعاتی تولید می‌کنه که واقعی به نظر می‌رسن ولی اشتباهن. مثلاً:

ازش بپرسی «این دارو با فلان دارو تداخل داره؟» و با قاطعیت بگه «نه، تداخلی ندارن» در حالی که تداخل جدی دارن. یا بپرسی «طبق قانون فلان، حکم این پرونده چیه؟» و یه ماده قانونی رو ذکر کنه که اصلاً وجود نداره.

مثلش مثل اینه که یه دوست خیلی باهوش داشته باشی که همیشه با اعتماد به نفس جواب می‌ده، ولی گاهی کاملاً از خودش درمیاره. مشکل اینه که نمی‌تونی تشخیص بدی کِی راست می‌گه و کِی نه.

GPT-5.5 Instant چطور توهم رو کم کرده؟

OpenAI چند تکنیک ترکیبی استفاده کرده:

۱. Calibrated Uncertainty

مدل یاد گرفته وقتی مطمئن نیست، صادقانه بگه «مطمئن نیستم». این ساده به نظر می‌رسه ولی از نظر فنی خیلی سخته. مدل‌های قبلی تمایل داشتن همیشه یه جواب قاطع بدن، حتی وقتی اطلاعات کافی نداشتن. GPT-5.5 Instant یه لایه «عدم قطعیت» داره که قبل از تولید جواب، سطح اطمینان مدل رو ارزیابی می‌کنه.

۲. Domain-Specific Verification

برای حوزه‌های حساس مثل پزشکی، حقوق و مالی، OpenAI مدل‌های تخصصی verifier ساخته. وقتی GPT-5.5 Instant یه ادعای پزشکی می‌کنه، این verifier چک می‌کنه آیا اون ادعا با منابع معتبر همخوانی داره یا نه. اگه نداره، مدل جوابش رو اصلاح می‌کنه.

۳. Retrieval-Augmented Generation (RAG) داخلی

GPT-5.5 Instant یه سیستم RAG داخلی داره. یعنی قبل از جواب دادن، یه جستجوی سریع توی پایگاه دانش داخلی انجام می‌ده تا مطمئن بشه اطلاعاتش به‌روزه. این مخصوصاً برای داده‌های پزشکی و حقوقی که مدام آپدیت می‌شن خیلی مهمه.

۴. RLHF بهبودیافته

OpenAI تیم بزرگ‌تری از متخصصان پزشکی، حقوقی و مالی رو برای فیدبک دادن به مدل استخدام کرده. این متخصصان هزاران ساعت صرف ارزیابی خروجی‌های مدل و اصلاحشون کردن. نتیجه یه مدل هست که توی حوزه‌های تخصصی خیلی دقیق‌تر عمل می‌کنه.

عدد ۵۲.۵٪ از کجا اومده؟

OpenAI یه بنچمارک داخلی به اسم «HallucinationBench» داره. این بنچمارک شامل هزاران سؤال تخصصی توی حوزه‌های پزشکی، حقوقی و مالی هست که جواب‌های صحیحشون مشخصه.

GPT-5.3 روی این بنچمارک ۱۸.۷٪ نرخ توهم داشت. یعنی از هر ۱۰۰ جواب تخصصی، تقریباً ۱۹ تاش حاوی اطلاعات نادرست بود. GPT-5.5 Instant این عدد رو به ۸.۹٪ رسونده. یعنی ۵۲.۵٪ کاهش.

البته ۸.۹٪ هنوز صفر نیست. یعنی از هر ۱۰۰ جواب تخصصی، تقریباً ۹ تا ممکنه مشکل داشته باشن. پس هنوز نباید کورکورانه به جواب‌های AI اعتماد کنی.

چرا اسمش «Instant» هست؟

GPT-5.5 Instant علاوه بر دقت بیشتر، سرعت بالاتری هم داره. OpenAI می‌گه زمان پاسخ‌گویی ۴۰٪ نسبت به GPT-5.3 کاهش پیدا کرده. این بهبود سرعت از طریق بهینه‌سازی معماری مدل و استفاده از تکنیک‌های Speculative Decoding به دست اومده.

Speculative Decoding چطور کار می‌کنه؟ به زبان ساده، یه مدل کوچک‌تر چند توکن بعدی رو حدس می‌زنه و مدل اصلی فقط تأیید یا رد می‌کنه. اگه حدس درست باشه (که معمولاً هست)، سرعت خیلی بالا می‌ره.

ترکیب سرعت بالا و توهم کمتر باعث شده OpenAI اسم «Instant» رو روش بذاره.

مقایسه با رقبا

بذار ببینیم GPT-5.5 Instant از نظر توهم‌زدگی کجای بازاره:

Claude Opus 4.6: Anthropic همیشه روی ایمنی و صداقت تمرکز داشته. Claude Opus 4.6 روی بنچمارک‌های مستقل نرخ توهم حدود ۷.۲٪ داره. یعنی هنوز یه مقدار بهتر از GPT-5.5 Instant هست.

Gemini 2.5 Pro: گوگل هم روی کاهش توهم کار کرده. نرخ توهم Gemini حدود ۱۰.۱٪ گزارش شده.

Llama 4: مدل اوپن‌سورس Meta نرخ توهم بالاتری داره، حدود ۱۵.۳٪. ولی برای یه مدل اوپن‌سورس این عدد خیلی بد نیست.

پس GPT-5.5 Instant از بیشتر رقبا بهتره ولی هنوز با Claude فاصله داره.

تأثیر عملی روی کاربرها

برای کاربر عادی ChatGPT، این آپدیت چند تغییر محسوس داره:

جواب‌های «نمی‌دونم» بیشتر: اگه سؤال تخصصی بپرسی، ممکنه بیشتر از قبل بشنوی «من اطلاعات کافی برای پاسخ دقیق ندارم». این نشونه پیشرفته، نه ضعف. مدلی که بلده بگه نمی‌دونم، قابل اعتمادتره.

منابع و رفرنس: GPT-5.5 Instant بیشتر از قبل به منابع اشاره می‌کنه. مثلاً وقتی یه اطلاعات پزشکی می‌ده، لینک مقاله یا گایدلاین مربوطه رو هم می‌ذاره.

هشدارهای بیشتر: توی حوزه‌های حساس، مدل بیشتر هشدار می‌ده. مثلاً: «این اطلاعات جایگزین مشاوره پزشکی نیست. حتماً با پزشک مشورت کن.»

سرعت بیشتر: جواب‌ها سریع‌تر میان. مخصوصاً برای سؤالات ساده، فرق محسوسه.

محدودیت‌ها

چند نکته مهم رو هم باید بگم:

اول اینکه ۵۲.۵٪ کاهش توهم فقط توی حوزه‌های پزشکی، حقوقی و مالی اندازه‌گیری شده. توی حوزه‌های دیگه ممکنه بهبود کمتر یا بیشتر باشه.

دوم اینکه این بنچمارک داخلی OpenAI هست. تا وقتی محققین مستقل تأیید نکنن، باید با احتیاط برخورد کنیم.

سوم اینکه GPT-5.5 Instant یه مدل «سبک‌تر» نسبت به GPT-5.5 کامل هست. یعنی توی تسک‌های خیلی پیچیده مثل کدنویسی سطح بالا یا استدلال چندمرحله‌ای، ممکنه از مدل کامل ضعیف‌تر عمل کنه.

آینده مبارزه با توهم

کاهش توهم یکی از مهم‌ترین چالش‌های AI هست و هر پیشرفتی توی این حوزه ارزشمنده. GPT-5.5 Instant نشون می‌ده که OpenAI داره جدی این مسئله رو دنبال می‌کنه.

ولی هدف نهایی صفر کردن توهمه و تا رسیدن به اون نقطه، هنوز راه زیادی مونده. فعلاً بهترین رویکرد اینه: از AI به عنوان دستیار استفاده کن، نه به عنوان منبع نهایی حقیقت. مخصوصاً توی حوزه‌های حساس مثل پزشکی و حقوق، همیشه با متخصص انسانی هم مشورت کن.

GPT-5.5 Instant یه قدم رو به جلوئه. ۵۲.۵٪ کاهش توهم عدد قابل‌توجهیه. ولی ۱۰۰٪ قابل اعتماد بودن، هنوز رؤیاست — رؤیایی که امیدواریم یه روز بهش برسیم.