تصور کن داری با AI تلفنی صحبت میکنی. میتونی وسط حرفش بپری، حرفت رو ادامه بدی، یا حتی هر دو همزمان حرف بزنید. تا الان این فقط در فیلمهای علمی-تخیلی بود.
هفته پیش (۱۱ می ۲۰۲۶) میرا موراتی (CTO سابق OpenAI) و استارتاپ Thinking Machines Lab یه مدل به اسم TML-Interaction-Small منتشر کردن. این اولین مدل AI ـه که همزمان «گوش میده و حرف میزنه» — یه معماری جدید به اسم interaction model برای هوش مصنوعی صوتی بلادرنگ. تاخیر پاسخش؟ کمتر از ۰.۴ ثانیه. تقریباً سرعت یه مکالمه طبیعی.
مشکل مدلهای فعلی — همهچی نوبتیه
GPT، Claude، Gemini — همشون «turn-based» کار میکنن. یعنی: تو حرف بزن، تموم کن، دست نگه دار، مدل پاسخ بده، تموم کنه، بعد دوباره تو. مثل پیامک. حتی Voice Mode هاشون که ظاهراً «صوتی» ـه، در پشت صحنه همینه — صدا تبدیل به متن میشه، مدل جواب میده، جواب تبدیل به صدا میشه. هر چرخه تاخیر داره.
برای همینه که مکالمه با Voice Mode هنوز «رباتمانند» احساس میشه. نمیتونی وسط حرفش بپری بدون اینکه گیج بشه. نمیتونه همزمان فکر کنه و حرف بزنه. اگه ۵ ثانیه ساکت بمونی، نمیدونه ادامه بده یا منتظر بمونه.
TML-Interaction-Small میرا موراتی — اولین مدل full-duplex
این مدل از پایه برای real-time interaction ساخته شده، نه اینکه یه مدل turn-based رو پچ کنن. مشخصات فنی:
- ۲۷۶ میلیارد پارامتر بهصورت Mixture-of-Experts، فقط ۱۲ میلیارد فعال در هر inference
- پنجرههای ۲۰۰ میلیثانیهای: بهجای منتظر شدن برای پایان نوبت، مدل هر ۲۰۰ms ورودی صدا، ویدیو و متن رو پردازش میکنه و در صورت لزوم پاسخ میده
- native multimodal: صدا، ویدیو و متن از همون اول وارد ساختار شده — نه pipeline چسبیده
این تفاوت معماری مهمه. تا الان مدلهای voice همش از یه «VAD harness» استفاده میکردن (Voice Activity Detection) که تشخیص میداد کاربر حرف زدن رو تموم کرده. این harness کنار رفت.
معماری دوگانه — frontend + background
یه ترفند جالب اینجا هست. دو تا مدل با هم کار میکنن:
Frontend interaction model: همیشه روشنه، با کاربر در ارتباطه، در پنجرههای ۲۰۰ms ورودی رو پردازش میکنه. این یه مدل سبک و سریعه که فقط برای real-time جواب دادن طراحی شده.
Background model: برای وقتهایی که لازمه فکر عمیقتری کنی، tool call بزنی، یا منطق پیچیده اجرا کنی. frontend کل context مکالمه رو میفرسته به background، background فکر میکنه، نتیجه برمیگرده و frontend در یه نقطه طبیعی واردش میکنه.
نتایج benchmark — فاصله با OpenAI و Google زیاده
روی FD-bench v1.5 (معیار ارزیابی interaction quality):
- TML-Interaction-Small: ۷۷.۸
- Gemini 3.1 Flash Live: ۵۴.۳
- GPT-Realtime-2.0: ۴۶.۸
روی تاخیر turn-taking (هرچه کمتر بهتر):
- TML: کمتر از ۰.۴ ثانیه
- Gemini 3.1 Flash Live: ۰.۵۷ ثانیه
- GPT-Realtime-2.0: ۱.۱۸ ثانیه
روی TimeSpeak (تست اینکه آیا مدل میتونه در زمان مشخص خودش شروع به حرف زدن کنه): TML با ۶۴.۷٪ دقت در برابر فقط ۴.۳٪ برای GPT-Realtime-2.0. یعنی GPT-Realtime تقریباً اصلاً نمیتونه این کار رو کنه.
یه نکته مهم: این اعداد رو خود Thinking Machines منتشر کرده — تست مستقل هنوز در دسترس نیست. باید منتظر بمونیم تا توسعهدهندههای مستقل واقعاً تست کنن.
یعنی چی برای کسبوکار و توسعه؟
اگه فکر میکنی این فقط یه نسخه بهتر از Voice Mode ـه، شاید عمیقتر باشه. این یه تغییر معماری جدیه، نه فقط ارتقاء سرعت. سه نتیجه عملی:
اول، support call واقعی AI: تا الان call center های AI همشون کند و رباتیک بودن — گیج میشدن، نمیتونستن حرف کاربر رو قطع کنن. با full-duplex، AI میتونه با همون سرعت یه اپراتور انسانی پاسخ بده، حرف بشنوه، یا حرفش رو قطع کنه. این میتونه شکل پشتیبانی تلفنی AI رو عوض کنه.
دوم، companion و آموزش زبان: یاد گرفتن زبان با AI تا الان همش text-based بود. حالا میتونی با AI واقعاً مکالمه کنی — با همون سرعت و الگوی یه گفتگوی واقعی. اپهای Duolingo و Pimsleur احتمالاً سریع این رو اضافه میکنن.
سوم، agent در دنیای واقعی: اگه میخوای یه AI agent بسازی که در یه جلسه شرکت کنه، با چند نفر همزمان صحبت کنه، یا real-time در یه call مشتری حضور داشته باشه — قبل از این، شدنی نبود. حالا هست.
آخرش چی؟ معماری AI داره عوض میشه
دوران مدلهای «بزرگتر = بهتر» داره تموم میشه. حالا داریم میبینیم که معماریهای جدید (interaction models، dual-model، ۲۰۰ms micro-turns) میتونن مشکلاتی رو حل کنن که scale تنها نمیتونست.
میرا موراتی با ۲ میلیارد دلار سرمایه و یه تیم کوچک تونست در یه زمینه خاص (interaction model) از OpenAI و Google جلو بزنه. این نشون میده که نوآوری در AI هنوز در دست تیمهای کوچکتر هم میتونه باشه — البته فعلاً در یه حوزه محدود.
اگه میخوای استراتژی AI کسبوکارت رو بسازی، خوشحال میشیم با همکاران ما صحبت کنی. اصطلاحاتی مثل MoE، full-duplex و VAD در فرهنگ لغت AI توضیح داده شده.
نظرات
هنوز نظری ثبت نشده. اولین نفر باشید!
نظر خود را بنویسید