Subquadratic — استارتاپی با ۱۲ میلیون توکن Context Window

یه شرکت جدید اومده که ادعاش گوش فلک رو کر کرده: ۱۲ میلیون توکن Context Window. اسمش Subquadratic هست و ۵ می ۲۰۲۶ با ۲۹ میلیون دلار سرمایه اولیه رسماً شروع به کار کرد. مدلشون SubQ LLM نام داره و از یه تکنیک به اسم «Subquadratic Sparse Attention» استفاده می‌کنه.

قبل از اینکه بریم سراغ جزئیات، بذار یه چیز رو روشن کنم: ۱۲ میلیون توکن یعنی چقدر؟

۱۲ میلیون توکن یعنی چی؟

بذار مقایسه کنیم. GPT-4 اولیه ۸ هزار توکن context window داشت. Claude 3 اومد و ۲۰۰ هزار توکن آورد. Claude Opus 4.6 الان ۱ میلیون توکن داره. Gemini 1.5 Pro دو میلیون توکن رو پشتیبانی می‌کنه.

حالا Subquadratic اومده و گفته: ۱۲ میلیون توکن. این تقریباً معادل ۳۰ تا کتاب ۴۰۰ صفحه‌ای هست. یا کل کدبیس یه پروژه بزرگ نرم‌افزاری. یا تمام ایمیل‌هایی که توی ۵ سال گذشته فرستادی و دریافت کردی.

فکرش رو بکن: یه مدل AI که می‌تونه همزمان ۳۰ تا کتاب رو «توی ذهنش» نگه داره و بهت جواب بده.

مشکل Quadratic Attention چیه؟

برای اینکه بفهمی چرا این دستاورد مهمه، باید یه مفهوم فنی رو ساده توضیح بدم.

مدل‌های زبانی از مکانیزمی به اسم «Attention» استفاده می‌کنن. توی Attention استاندارد (که بهش Self-Attention هم می‌گن)، هر توکن باید به تمام توکن‌های دیگه «توجه» کنه. این یعنی اگه ۱۰۰۰ توکن داشته باشی، مدل باید ۱۰۰۰ × ۱۰۰۰ = یک میلیون محاسبه انجام بده. اگه ۱۰ هزار توکن داشته باشی، ۱۰۰ میلیون محاسبه می‌شه.

به این می‌گن «رشد درجه دو» یا Quadratic Growth. هر بار که تعداد توکن‌ها دو برابر بشه، محاسبات چهار برابر می‌شه. برای ۱۲ میلیون توکن با روش سنتی، حجم محاسبات عملاً غیرممکن می‌شه.

مثلش مثل اینه که بخوای توی یه مهمونی ۱۰ نفره، هر نفر با همه دست بده. ۴۵ دست‌دادن لازمه. ولی توی مهمونی ۱۰۰۰ نفره؟ تقریباً ۵۰۰ هزار دست‌دادن. عملاً شدنی نیست.

Subquadratic Sparse Attention چطور کار می‌کنه؟

Subquadratic یه راه‌حل هوشمندانه پیدا کرده: به جای اینکه هر توکن به همه توکن‌های دیگه توجه کنه، فقط به توکن‌های «مهم» توجه می‌کنه.

ایده اصلی اینه که توی یه متن طولانی، بیشتر توکن‌ها ربط مستقیمی به هم ندارن. وقتی داری پاراگراف آخر یه کتاب رو می‌خونی، لازم نیست به تک‌تک کلمات فصل اول توجه کنی. فقط به نکات کلیدی و مرتبط نیاز داری.

Subquadratic از ترکیبی از چند تکنیک استفاده می‌کنه:

Local Attention: هر توکن فقط به توکن‌های نزدیک خودش (مثلاً ۲۰۴۸ توکن قبل و بعد) توجه کامل می‌کنه.

Sparse Global Attention: برای توکن‌های دور، از یه مکانیزم انتخابی استفاده می‌شه. مدل یاد گرفته کدوم توکن‌های دور واقعاً مهم هستن و فقط به اونا توجه می‌کنه.

Hierarchical Compression: متن طولانی به بلوک‌هایی تقسیم می‌شه و هر بلوک یه «خلاصه» تولید می‌کنه. توکن‌های جدید به جای توجه به تک‌تک توکن‌های قبلی، می‌تونن به این خلاصه‌ها توجه کنن.

نتیجه؟ پیچیدگی محاسباتی از O(n²) به تقریباً O(n√n) کاهش پیدا کرده. به زبان ساده: برای ۱۲ میلیون توکن، به جای ۱۴۴ تریلیون محاسبه، شاید ۴۰ میلیارد محاسبه لازم باشه. این یه تفاوت عظیمه.

عملکرد SubQ LLM چطوره؟

طبق بنچمارک‌هایی که خود Subquadratic منتشر کرده:

روی تسک‌های «Needle in a Haystack» (پیدا کردن یه اطلاعات خاص توی متن خیلی طولانی)، SubQ LLM با ۱۲ میلیون توکن دقت ۹۴.۲٪ داشته. برای مقایسه، بیشتر مدل‌ها بعد از ۲ میلیون توکن دقتشون به شدت افت می‌کنه.

روی تسک‌های خلاصه‌سازی اسناد طولانی هم نتایج خوبی گزارش شده. البته هنوز بنچمارک‌های مستقل منتشر نشده و باید منتظر بمونیم محققین مستقل این ادعاها رو تأیید کنن.

یه نکته مهم: SubQ LLM از نظر کیفیت خروجی روی تسک‌های عمومی (مثل پاسخ به سؤالات، کدنویسی، نوشتن) هنوز با GPT-5.5 یا Claude Opus فاصله داره. قدرت اصلیش توی مدیریت context فوق‌العاده بزرگه.

۲۹ میلیون دلار سرمایه اولیه از کجا اومده؟

دور سرمایه‌گذاری Subquadratic رو Sequoia Capital لید کرده. Andreessen Horowitz و چند سرمایه‌گذار فرشته از Google Brain و DeepMind هم مشارکت داشتن.

تیم بنیان‌گذار هم جالبه: سه تا محقق از گروه تحقیقاتی Google Brain که قبلاً روی مکانیزم‌های Attention کار می‌کردن. یعنی اینا دقیقاً همون آدم‌هایی هستن که مشکل رو از نزدیک می‌شناسن.

چرا Context Window بزرگ مهمه؟

شاید بپرسی: «خب ۱ میلیون توکن کافی نیست؟ چرا ۱۲ میلیون؟»

جواب ساده‌ست: کاربردهایی وجود داره که ۱ میلیون توکن کافی نیست.

تحلیل کدبیس بزرگ: یه پروژه متوسط نرم‌افزاری شاید ۵ تا ۱۰ میلیون توکن کد داشته باشه. با ۱۲ میلیون توکن، مدل می‌تونه کل پروژه رو ببینه و باگ‌ها رو پیدا کنه.

تحلیل حقوقی: یه قرارداد بزرگ با تمام ضمائم و مستنداتش شاید چند میلیون توکن باشه. وکیل‌ها و تیم‌های حقوقی از این قابلیت خیلی استقبال می‌کنن.

تحقیقات علمی: یه محقق می‌خواد ۵۰ مقاله مرتبط رو همزمان تحلیل کنه و ارتباطات بینشون رو پیدا کنه. با context window بزرگ، این ممکنه.

چت‌بات‌های با حافظه طولانی: تصور کن یه دستیار AI داشته باشی که تمام مکالماتت با اون رو طی ماه‌ها یادش باشه. با ۱۲ میلیون توکن، این خیلی نزدیک‌تر شده.

چالش‌ها و انتقادات

البته همه چیز گل و بلبل نیست. چند چالش جدی وجود داره:

اول اینکه «context window بزرگ» لزوماً به معنی «درک عمیق» نیست. مشکل «Lost in the Middle» هنوز وجود داره — مدل ممکنه اطلاعات وسط context رو نادیده بگیره. Subquadratic ادعا می‌کنه این مشکل رو تا حد زیادی حل کرده، ولی تا تأیید مستقل نشه، نمی‌شه مطمئن بود.

دوم اینکه هزینه inference هنوز بالاست. حتی با بهینه‌سازی‌های Subquadratic، پردازش ۱۲ میلیون توکن ارزون نیست. قیمت‌گذاری هنوز اعلام نشده.

سوم اینکه latency یه مسئله‌ست. وقتی مدل باید ۱۲ میلیون توکن رو پردازش کنه، زمان پاسخ‌گویی بالا می‌ره. برای کاربردهای real-time این می‌تونه مشکل‌ساز باشه.

آینده context window

حرکت Subquadratic نشون می‌ده که مسابقه context window تمومی نداره. از ۴ هزار توکن شروع کردیم، رسیدیم به ۱۲ میلیون. و احتمالاً سال بعد عدد بزرگ‌تری می‌بینیم.

ولی سؤال اصلی اینه: آیا بزرگ‌تر همیشه بهتره؟ یا باید روی کیفیت درک و استفاده بهینه از context تمرکز کنیم؟ جواب احتمالاً هر دو تاست. و شرکت‌هایی مثل Subquadratic دارن نشون می‌دن که می‌شه هم context رو بزرگ‌تر کرد و هم کیفیت رو حفظ کرد.

منتظر بنچمارک‌های مستقل و قیمت‌گذاری نهایی هستیم. ولی یه چیز مطمئنه: عصر context windowهای کوچیک تموم شده.