Thinking Machines — مدلی که هم‌زمان گوش می‌ده و حرف می‌زنه

تصور کن داری با AI تلفنی صحبت می‌کنی. می‌تونی وسط حرفش بپری، حرفت رو ادامه بدی، یا حتی هر دو هم‌زمان حرف بزنید. تا الان این فقط در فیلم‌های علمی-تخیلی بود.

هفته پیش (۱۱ می ۲۰۲۶) میرا موراتی (CTO سابق OpenAI) و استارتاپ Thinking Machines Lab یه مدل به اسم TML-Interaction-Small منتشر کردن. این اولین مدل AI ـه که هم‌زمان «گوش می‌ده و حرف می‌زنه» — یه معماری جدید به اسم interaction model برای هوش مصنوعی صوتی بلادرنگ. تاخیر پاسخش؟ کمتر از ۰.۴ ثانیه. تقریباً سرعت یه مکالمه طبیعی.

مشکل مدل‌های فعلی — همه‌چی نوبتیه

GPT، Claude، Gemini — همشون «turn-based» کار می‌کنن. یعنی: تو حرف بزن، تموم کن، دست نگه دار، مدل پاسخ بده، تموم کنه، بعد دوباره تو. مثل پیامک. حتی Voice Mode هاشون که ظاهراً «صوتی» ـه، در پشت صحنه همینه — صدا تبدیل به متن می‌شه، مدل جواب می‌ده، جواب تبدیل به صدا می‌شه. هر چرخه تاخیر داره.

برای همینه که مکالمه با Voice Mode هنوز «ربات‌مانند» احساس می‌شه. نمی‌تونی وسط حرفش بپری بدون اینکه گیج بشه. نمی‌تونه هم‌زمان فکر کنه و حرف بزنه. اگه ۵ ثانیه ساکت بمونی، نمی‌دونه ادامه بده یا منتظر بمونه.

تشبیه

مدل‌های فعلی مثل واکی-تاکی هستن — یه نفر حرف می‌زنه، می‌گه «over»، بعد دیگری. Interaction model مثل تلفن واقعیه — هر دو طرف می‌تونن هم‌زمان حرف بزنن، سکوت کنن، یا حرف همدیگه رو قطع کنن.

TML-Interaction-Small میرا موراتی — اولین مدل full-duplex

این مدل از پایه برای real-time interaction ساخته شده، نه اینکه یه مدل turn-based رو پچ کنن. مشخصات فنی:

۲۷۶ میلیارد پارامتر به‌صورت Mixture-of-Experts، فقط ۱۲ میلیارد فعال در هر inference
پنجره‌های ۲۰۰ میلی‌ثانیه‌ای: به‌جای منتظر شدن برای پایان نوبت، مدل هر ۲۰۰ms ورودی صدا، ویدیو و متن رو پردازش می‌کنه و در صورت لزوم پاسخ می‌ده
native multimodal: صدا، ویدیو و متن از همون اول وارد ساختار شده — نه pipeline چسبیده

این تفاوت معماری مهمه. تا الان مدل‌های voice همش از یه «VAD harness» استفاده می‌کردن (Voice Activity Detection) که تشخیص می‌داد کاربر حرف زدن رو تموم کرده. این harness کنار رفت.

معماری دوگانه — frontend + background

یه ترفند جالب اینجا هست. دو تا مدل با هم کار می‌کنن:

Frontend interaction model: همیشه روشنه، با کاربر در ارتباطه، در پنجره‌های ۲۰۰ms ورودی رو پردازش می‌کنه. این یه مدل سبک و سریعه که فقط برای real-time جواب دادن طراحی شده.

Background model: برای وقت‌هایی که لازمه فکر عمیق‌تری کنی، tool call بزنی، یا منطق پیچیده اجرا کنی. frontend کل context مکالمه رو می‌فرسته به background، background فکر می‌کنه، نتیجه برمی‌گرده و frontend در یه نقطه طبیعی واردش می‌کنه.

چرا این مهمه

این همون مدل ذهنیه که ما انسان‌ها داریم. وقتی داری حرف می‌زنی، یه بخش از مغزت گوش می‌ده، یه بخش جمله بعدی رو می‌سازه، و یه بخش پشت صحنه به سوال فکر می‌کنه. AI تا حالا فقط یکی از این‌ها رو هم‌زمان می‌تونست انجام بده.

نتایج benchmark — فاصله با OpenAI و Google زیاده

روی FD-bench v1.5 (معیار ارزیابی interaction quality):

TML-Interaction-Small: ۷۷.۸
Gemini 3.1 Flash Live: ۵۴.۳
GPT-Realtime-2.0: ۴۶.۸

روی تاخیر turn-taking (هرچه کمتر بهتر):

TML: کمتر از ۰.۴ ثانیه
Gemini 3.1 Flash Live: ۰.۵۷ ثانیه
GPT-Realtime-2.0: ۱.۱۸ ثانیه

روی TimeSpeak (تست اینکه آیا مدل می‌تونه در زمان مشخص خودش شروع به حرف زدن کنه): TML با ۶۴.۷٪ دقت در برابر فقط ۴.۳٪ برای GPT-Realtime-2.0. یعنی GPT-Realtime تقریباً اصلاً نمی‌تونه این کار رو کنه.

یه نکته مهم: این اعداد رو خود Thinking Machines منتشر کرده — تست مستقل هنوز در دسترس نیست. باید منتظر بمونیم تا توسعه‌دهنده‌های مستقل واقعاً تست کنن.

یعنی چی برای کسب‌وکار و توسعه؟

اگه فکر می‌کنی این فقط یه نسخه بهتر از Voice Mode ـه، شاید عمیق‌تر باشه. این یه تغییر معماری جدیه، نه فقط ارتقاء سرعت. سه نتیجه عملی:

اول، support call واقعی AI: تا الان call center های AI همشون کند و رباتیک بودن — گیج می‌شدن، نمی‌تونستن حرف کاربر رو قطع کنن. با full-duplex، AI می‌تونه با همون سرعت یه اپراتور انسانی پاسخ بده، حرف بشنوه، یا حرفش رو قطع کنه. این می‌تونه شکل پشتیبانی تلفنی AI رو عوض کنه.

دوم، companion و آموزش زبان: یاد گرفتن زبان با AI تا الان همش text-based بود. حالا می‌تونی با AI واقعاً مکالمه کنی — با همون سرعت و الگوی یه گفتگوی واقعی. اپ‌های Duolingo و Pimsleur احتمالاً سریع این رو اضافه می‌کنن.

سوم، agent در دنیای واقعی: اگه می‌خوای یه AI agent بسازی که در یه جلسه شرکت کنه، با چند نفر هم‌زمان صحبت کنه، یا real-time در یه call مشتری حضور داشته باشه — قبل از این، شدنی نبود. حالا هست.

یه نکته احتیاطی

TML هنوز در «research preview» ـه — یعنی برای production آماده نیست. مدل به‌صورت محدود به بعضی تستر داده شده. ضمناً Thinking Machines با ۲ میلیارد دلار سرمایه شروع کرده ولی هنوز محصول تجاری نداره. باید دید چقدر می‌تونه با OpenAI و Google رقابت کنه.

آخرش چی؟ معماری AI داره عوض می‌شه

دوران مدل‌های «بزرگ‌تر = بهتر» داره تموم می‌شه. حالا داریم می‌بینیم که معماری‌های جدید (interaction models، dual-model، ۲۰۰ms micro-turns) می‌تونن مشکلاتی رو حل کنن که scale تنها نمی‌تونست.

میرا موراتی با ۲ میلیارد دلار سرمایه و یه تیم کوچک تونست در یه زمینه خاص (interaction model) از OpenAI و Google جلو بزنه. این نشون می‌ده که نوآوری در AI هنوز در دست تیم‌های کوچک‌تر هم می‌تونه باشه — البته فعلاً در یه حوزه محدود.

اگه می‌خوای استراتژی AI کسب‌وکارت رو بسازی، خوشحال می‌شیم با همکاران ما صحبت کنی. اصطلاحاتی مثل MoE، full-duplex و VAD در فرهنگ لغت AI توضیح داده شده.