یه شرکت جدید اومده که ادعاش گوش فلک رو کر کرده: ۱۲ میلیون توکن Context Window. اسمش Subquadratic هست و ۵ می ۲۰۲۶ با ۲۹ میلیون دلار سرمایه اولیه رسماً شروع به کار کرد. مدلشون SubQ LLM نام داره و از یه تکنیک به اسم «Subquadratic Sparse Attention» استفاده میکنه.
قبل از اینکه بریم سراغ جزئیات، بذار یه چیز رو روشن کنم: ۱۲ میلیون توکن یعنی چقدر؟
۱۲ میلیون توکن یعنی چی؟
بذار مقایسه کنیم. GPT-4 اولیه ۸ هزار توکن context window داشت. Claude 3 اومد و ۲۰۰ هزار توکن آورد. Claude Opus 4.6 الان ۱ میلیون توکن داره. Gemini 1.5 Pro دو میلیون توکن رو پشتیبانی میکنه.
حالا Subquadratic اومده و گفته: ۱۲ میلیون توکن. این تقریباً معادل ۳۰ تا کتاب ۴۰۰ صفحهای هست. یا کل کدبیس یه پروژه بزرگ نرمافزاری. یا تمام ایمیلهایی که توی ۵ سال گذشته فرستادی و دریافت کردی.
فکرش رو بکن: یه مدل AI که میتونه همزمان ۳۰ تا کتاب رو «توی ذهنش» نگه داره و بهت جواب بده.
مشکل Quadratic Attention چیه؟
برای اینکه بفهمی چرا این دستاورد مهمه، باید یه مفهوم فنی رو ساده توضیح بدم.
مدلهای زبانی از مکانیزمی به اسم «Attention» استفاده میکنن. توی Attention استاندارد (که بهش Self-Attention هم میگن)، هر توکن باید به تمام توکنهای دیگه «توجه» کنه. این یعنی اگه ۱۰۰۰ توکن داشته باشی، مدل باید ۱۰۰۰ × ۱۰۰۰ = یک میلیون محاسبه انجام بده. اگه ۱۰ هزار توکن داشته باشی، ۱۰۰ میلیون محاسبه میشه.
به این میگن «رشد درجه دو» یا Quadratic Growth. هر بار که تعداد توکنها دو برابر بشه، محاسبات چهار برابر میشه. برای ۱۲ میلیون توکن با روش سنتی، حجم محاسبات عملاً غیرممکن میشه.
مثلش مثل اینه که بخوای توی یه مهمونی ۱۰ نفره، هر نفر با همه دست بده. ۴۵ دستدادن لازمه. ولی توی مهمونی ۱۰۰۰ نفره؟ تقریباً ۵۰۰ هزار دستدادن. عملاً شدنی نیست.
Subquadratic Sparse Attention چطور کار میکنه؟
Subquadratic یه راهحل هوشمندانه پیدا کرده: به جای اینکه هر توکن به همه توکنهای دیگه توجه کنه، فقط به توکنهای «مهم» توجه میکنه.
ایده اصلی اینه که توی یه متن طولانی، بیشتر توکنها ربط مستقیمی به هم ندارن. وقتی داری پاراگراف آخر یه کتاب رو میخونی، لازم نیست به تکتک کلمات فصل اول توجه کنی. فقط به نکات کلیدی و مرتبط نیاز داری.
Subquadratic از ترکیبی از چند تکنیک استفاده میکنه:
Local Attention: هر توکن فقط به توکنهای نزدیک خودش (مثلاً ۲۰۴۸ توکن قبل و بعد) توجه کامل میکنه.
Sparse Global Attention: برای توکنهای دور، از یه مکانیزم انتخابی استفاده میشه. مدل یاد گرفته کدوم توکنهای دور واقعاً مهم هستن و فقط به اونا توجه میکنه.
Hierarchical Compression: متن طولانی به بلوکهایی تقسیم میشه و هر بلوک یه «خلاصه» تولید میکنه. توکنهای جدید به جای توجه به تکتک توکنهای قبلی، میتونن به این خلاصهها توجه کنن.
نتیجه؟ پیچیدگی محاسباتی از O(n²) به تقریباً O(n√n) کاهش پیدا کرده. به زبان ساده: برای ۱۲ میلیون توکن، به جای ۱۴۴ تریلیون محاسبه، شاید ۴۰ میلیارد محاسبه لازم باشه. این یه تفاوت عظیمه.
عملکرد SubQ LLM چطوره؟
طبق بنچمارکهایی که خود Subquadratic منتشر کرده:
روی تسکهای «Needle in a Haystack» (پیدا کردن یه اطلاعات خاص توی متن خیلی طولانی)، SubQ LLM با ۱۲ میلیون توکن دقت ۹۴.۲٪ داشته. برای مقایسه، بیشتر مدلها بعد از ۲ میلیون توکن دقتشون به شدت افت میکنه.
روی تسکهای خلاصهسازی اسناد طولانی هم نتایج خوبی گزارش شده. البته هنوز بنچمارکهای مستقل منتشر نشده و باید منتظر بمونیم محققین مستقل این ادعاها رو تأیید کنن.
یه نکته مهم: SubQ LLM از نظر کیفیت خروجی روی تسکهای عمومی (مثل پاسخ به سؤالات، کدنویسی، نوشتن) هنوز با GPT-5.5 یا Claude Opus فاصله داره. قدرت اصلیش توی مدیریت context فوقالعاده بزرگه.
۲۹ میلیون دلار سرمایه اولیه از کجا اومده؟
دور سرمایهگذاری Subquadratic رو Sequoia Capital لید کرده. Andreessen Horowitz و چند سرمایهگذار فرشته از Google Brain و DeepMind هم مشارکت داشتن.
تیم بنیانگذار هم جالبه: سه تا محقق از گروه تحقیقاتی Google Brain که قبلاً روی مکانیزمهای Attention کار میکردن. یعنی اینا دقیقاً همون آدمهایی هستن که مشکل رو از نزدیک میشناسن.
چرا Context Window بزرگ مهمه؟
شاید بپرسی: «خب ۱ میلیون توکن کافی نیست؟ چرا ۱۲ میلیون؟»
جواب سادهست: کاربردهایی وجود داره که ۱ میلیون توکن کافی نیست.
تحلیل کدبیس بزرگ: یه پروژه متوسط نرمافزاری شاید ۵ تا ۱۰ میلیون توکن کد داشته باشه. با ۱۲ میلیون توکن، مدل میتونه کل پروژه رو ببینه و باگها رو پیدا کنه.
تحلیل حقوقی: یه قرارداد بزرگ با تمام ضمائم و مستنداتش شاید چند میلیون توکن باشه. وکیلها و تیمهای حقوقی از این قابلیت خیلی استقبال میکنن.
تحقیقات علمی: یه محقق میخواد ۵۰ مقاله مرتبط رو همزمان تحلیل کنه و ارتباطات بینشون رو پیدا کنه. با context window بزرگ، این ممکنه.
چتباتهای با حافظه طولانی: تصور کن یه دستیار AI داشته باشی که تمام مکالماتت با اون رو طی ماهها یادش باشه. با ۱۲ میلیون توکن، این خیلی نزدیکتر شده.
چالشها و انتقادات
البته همه چیز گل و بلبل نیست. چند چالش جدی وجود داره:
اول اینکه «context window بزرگ» لزوماً به معنی «درک عمیق» نیست. مشکل «Lost in the Middle» هنوز وجود داره — مدل ممکنه اطلاعات وسط context رو نادیده بگیره. Subquadratic ادعا میکنه این مشکل رو تا حد زیادی حل کرده، ولی تا تأیید مستقل نشه، نمیشه مطمئن بود.
دوم اینکه هزینه inference هنوز بالاست. حتی با بهینهسازیهای Subquadratic، پردازش ۱۲ میلیون توکن ارزون نیست. قیمتگذاری هنوز اعلام نشده.
سوم اینکه latency یه مسئلهست. وقتی مدل باید ۱۲ میلیون توکن رو پردازش کنه، زمان پاسخگویی بالا میره. برای کاربردهای real-time این میتونه مشکلساز باشه.
آینده context window
حرکت Subquadratic نشون میده که مسابقه context window تمومی نداره. از ۴ هزار توکن شروع کردیم، رسیدیم به ۱۲ میلیون. و احتمالاً سال بعد عدد بزرگتری میبینیم.
ولی سؤال اصلی اینه: آیا بزرگتر همیشه بهتره؟ یا باید روی کیفیت درک و استفاده بهینه از context تمرکز کنیم؟ جواب احتمالاً هر دو تاست. و شرکتهایی مثل Subquadratic دارن نشون میدن که میشه هم context رو بزرگتر کرد و هم کیفیت رو حفظ کرد.
منتظر بنچمارکهای مستقل و قیمتگذاری نهایی هستیم. ولی یه چیز مطمئنه: عصر context windowهای کوچیک تموم شده.
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید