OpenAI یه قدم بزرگ برداشته: GPT-5.5 Instant جایگزین GPT-5.3 به عنوان مدل پیشفرض ChatGPT شده. و مهمترین ویژگیش؟ ۵۲.۵٪ کاهش در توهمزدگی (Hallucination) توی حوزههای پزشکی، حقوقی و مالی. این یعنی مدل خیلی کمتر چیزی رو سرخود میبافه.
بذار صادق باشم: توهمزدگی بزرگترین مشکل مدلهای زبانی بوده و هست. وقتی یه مدل AI با اعتماد به نفس بالا یه اطلاعات کاملاً غلط بهت میده، نتیجهش میتونه فاجعهبار باشه — مخصوصاً اگه حوزه حساسی مثل پزشکی یا حقوق باشه.
توهمزدگی AI دقیقاً چیه؟
وقتی میگیم یه مدل AI «توهم» میزنه، منظورمون اینه که اطلاعاتی تولید میکنه که واقعی به نظر میرسن ولی اشتباهن. مثلاً:
ازش بپرسی «این دارو با فلان دارو تداخل داره؟» و با قاطعیت بگه «نه، تداخلی ندارن» در حالی که تداخل جدی دارن. یا بپرسی «طبق قانون فلان، حکم این پرونده چیه؟» و یه ماده قانونی رو ذکر کنه که اصلاً وجود نداره.
مثلش مثل اینه که یه دوست خیلی باهوش داشته باشی که همیشه با اعتماد به نفس جواب میده، ولی گاهی کاملاً از خودش درمیاره. مشکل اینه که نمیتونی تشخیص بدی کِی راست میگه و کِی نه.
GPT-5.5 Instant چطور توهم رو کم کرده؟
OpenAI چند تکنیک ترکیبی استفاده کرده:
۱. Calibrated Uncertainty
مدل یاد گرفته وقتی مطمئن نیست، صادقانه بگه «مطمئن نیستم». این ساده به نظر میرسه ولی از نظر فنی خیلی سخته. مدلهای قبلی تمایل داشتن همیشه یه جواب قاطع بدن، حتی وقتی اطلاعات کافی نداشتن. GPT-5.5 Instant یه لایه «عدم قطعیت» داره که قبل از تولید جواب، سطح اطمینان مدل رو ارزیابی میکنه.
۲. Domain-Specific Verification
برای حوزههای حساس مثل پزشکی، حقوق و مالی، OpenAI مدلهای تخصصی verifier ساخته. وقتی GPT-5.5 Instant یه ادعای پزشکی میکنه، این verifier چک میکنه آیا اون ادعا با منابع معتبر همخوانی داره یا نه. اگه نداره، مدل جوابش رو اصلاح میکنه.
۳. Retrieval-Augmented Generation (RAG) داخلی
GPT-5.5 Instant یه سیستم RAG داخلی داره. یعنی قبل از جواب دادن، یه جستجوی سریع توی پایگاه دانش داخلی انجام میده تا مطمئن بشه اطلاعاتش بهروزه. این مخصوصاً برای دادههای پزشکی و حقوقی که مدام آپدیت میشن خیلی مهمه.
۴. RLHF بهبودیافته
OpenAI تیم بزرگتری از متخصصان پزشکی، حقوقی و مالی رو برای فیدبک دادن به مدل استخدام کرده. این متخصصان هزاران ساعت صرف ارزیابی خروجیهای مدل و اصلاحشون کردن. نتیجه یه مدل هست که توی حوزههای تخصصی خیلی دقیقتر عمل میکنه.
عدد ۵۲.۵٪ از کجا اومده؟
OpenAI یه بنچمارک داخلی به اسم «HallucinationBench» داره. این بنچمارک شامل هزاران سؤال تخصصی توی حوزههای پزشکی، حقوقی و مالی هست که جوابهای صحیحشون مشخصه.
GPT-5.3 روی این بنچمارک ۱۸.۷٪ نرخ توهم داشت. یعنی از هر ۱۰۰ جواب تخصصی، تقریباً ۱۹ تاش حاوی اطلاعات نادرست بود. GPT-5.5 Instant این عدد رو به ۸.۹٪ رسونده. یعنی ۵۲.۵٪ کاهش.
البته ۸.۹٪ هنوز صفر نیست. یعنی از هر ۱۰۰ جواب تخصصی، تقریباً ۹ تا ممکنه مشکل داشته باشن. پس هنوز نباید کورکورانه به جوابهای AI اعتماد کنی.
چرا اسمش «Instant» هست؟
GPT-5.5 Instant علاوه بر دقت بیشتر، سرعت بالاتری هم داره. OpenAI میگه زمان پاسخگویی ۴۰٪ نسبت به GPT-5.3 کاهش پیدا کرده. این بهبود سرعت از طریق بهینهسازی معماری مدل و استفاده از تکنیکهای Speculative Decoding به دست اومده.
Speculative Decoding چطور کار میکنه؟ به زبان ساده، یه مدل کوچکتر چند توکن بعدی رو حدس میزنه و مدل اصلی فقط تأیید یا رد میکنه. اگه حدس درست باشه (که معمولاً هست)، سرعت خیلی بالا میره.
ترکیب سرعت بالا و توهم کمتر باعث شده OpenAI اسم «Instant» رو روش بذاره.
مقایسه با رقبا
بذار ببینیم GPT-5.5 Instant از نظر توهمزدگی کجای بازاره:
Claude Opus 4.6: Anthropic همیشه روی ایمنی و صداقت تمرکز داشته. Claude Opus 4.6 روی بنچمارکهای مستقل نرخ توهم حدود ۷.۲٪ داره. یعنی هنوز یه مقدار بهتر از GPT-5.5 Instant هست.
Gemini 2.5 Pro: گوگل هم روی کاهش توهم کار کرده. نرخ توهم Gemini حدود ۱۰.۱٪ گزارش شده.
Llama 4: مدل اوپنسورس Meta نرخ توهم بالاتری داره، حدود ۱۵.۳٪. ولی برای یه مدل اوپنسورس این عدد خیلی بد نیست.
پس GPT-5.5 Instant از بیشتر رقبا بهتره ولی هنوز با Claude فاصله داره.
تأثیر عملی روی کاربرها
برای کاربر عادی ChatGPT، این آپدیت چند تغییر محسوس داره:
جوابهای «نمیدونم» بیشتر: اگه سؤال تخصصی بپرسی، ممکنه بیشتر از قبل بشنوی «من اطلاعات کافی برای پاسخ دقیق ندارم». این نشونه پیشرفته، نه ضعف. مدلی که بلده بگه نمیدونم، قابل اعتمادتره.
منابع و رفرنس: GPT-5.5 Instant بیشتر از قبل به منابع اشاره میکنه. مثلاً وقتی یه اطلاعات پزشکی میده، لینک مقاله یا گایدلاین مربوطه رو هم میذاره.
هشدارهای بیشتر: توی حوزههای حساس، مدل بیشتر هشدار میده. مثلاً: «این اطلاعات جایگزین مشاوره پزشکی نیست. حتماً با پزشک مشورت کن.»
سرعت بیشتر: جوابها سریعتر میان. مخصوصاً برای سؤالات ساده، فرق محسوسه.
محدودیتها
چند نکته مهم رو هم باید بگم:
اول اینکه ۵۲.۵٪ کاهش توهم فقط توی حوزههای پزشکی، حقوقی و مالی اندازهگیری شده. توی حوزههای دیگه ممکنه بهبود کمتر یا بیشتر باشه.
دوم اینکه این بنچمارک داخلی OpenAI هست. تا وقتی محققین مستقل تأیید نکنن، باید با احتیاط برخورد کنیم.
سوم اینکه GPT-5.5 Instant یه مدل «سبکتر» نسبت به GPT-5.5 کامل هست. یعنی توی تسکهای خیلی پیچیده مثل کدنویسی سطح بالا یا استدلال چندمرحلهای، ممکنه از مدل کامل ضعیفتر عمل کنه.
آینده مبارزه با توهم
کاهش توهم یکی از مهمترین چالشهای AI هست و هر پیشرفتی توی این حوزه ارزشمنده. GPT-5.5 Instant نشون میده که OpenAI داره جدی این مسئله رو دنبال میکنه.
ولی هدف نهایی صفر کردن توهمه و تا رسیدن به اون نقطه، هنوز راه زیادی مونده. فعلاً بهترین رویکرد اینه: از AI به عنوان دستیار استفاده کن، نه به عنوان منبع نهایی حقیقت. مخصوصاً توی حوزههای حساس مثل پزشکی و حقوق، همیشه با متخصص انسانی هم مشورت کن.
GPT-5.5 Instant یه قدم رو به جلوئه. ۵۲.۵٪ کاهش توهم عدد قابلتوجهیه. ولی ۱۰۰٪ قابل اعتماد بودن، هنوز رؤیاست — رؤیایی که امیدواریم یه روز بهش برسیم.
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید