مدل هوش مصنوعی جدید شیائومی، MiMo ، با ثبت سرعت بیسابقه ۱۰۰۰ توکن در ثانیه روی سختافزارهای معمولی، رقبای آمریکایی خود را به چالش کشید.
به گزارش سرویس هوش مصنوعی تک ناک؛ شیائومی که بیشتر به واسطه ساخت گوشیهای هوشمند و اسکوترهای برقی ارزانقیمت شناخته میشود، حالا در قامت یک مدعی جدی در عرصه هوش مصنوعی ظاهر شده است. این شرکت فراتر از انتظار کارشناسان، در یک شروع طوفانی موفق شد رکورد جهانی سرعت استنتاج را در صدر اخبار فناوری قرار دهد.
در همین راستا، شیائومی از سازوکار پردازشی جدیدی برای مدل پرچمدار یک تریلیون پارامتری خود با نام MiMo-V2.5-Pro-UltraSpeed پرده برداشت. شایان ذکر است که سرعت پردازش این مدل از مرز ۱۰۰۰ توکن در ثانیه عبور کرده و حتی در ارزیابیهای اولیه به سقف ۱۲۰۰ توکن نیز رسیده است.
به منظور درک بهتر این ساختار، باید اشاره کرد که پارامترها همان وزنهای عددی هستند که میزان پیچیدگی درک مدل را تعیین میکنند. از سوی دیگر، توکنها نیز واحدهای متنی بازخوانی و نگارش مدل محسوب میشوند که هر کدام به طور میانگین معادل سه چهارم یک کلمه هستند.
به نقل از Decrypt، شیائومی این جهش بزرگ را تنها با بهکارگیری یک نود استاندارد شامل ۸ پردازنده گرافیکی معمولی موجود در بازار رقم زده است. این دستاورد بیسابقه، یعنی بینیازی مطلق از تراشههای سفارشی، معادلات تجاری شرکتها را برای پیادهسازی هوش مصنوعی پرسرعت دگرگون میکند.
با مقایسه این آمار متنوع متوجه میشویم که بر اساس سنجشهای موسسه Artificial Analysis، مدل GPT-5.5 که پایه خدمات ChatGPT است، سرعت مأیوسکننده ۶۸ توکن در ثانیه را ارائه میدهد. این در حالی است که غول جدید شیائومی در شاخصهای کلیدی کدنویسی کاملاً با مدل ۷۱ توکنی Claude Opus همسطح است، اما با سرعتی باورنکردنی عملیات را اجرا میکند.
پیش از این، شرکتهای نوظهوری مثل Cerebras و گروک تمام استراتژی تجاری خود را بر حل این چالش متمرکز کرده بودند. برای نمونه، Cerebras با طراحی یک ابرتراشه غولپیکر تلاش کرد گلوگاه پهنای باند را دور بزند که اگرچه موفقیتآمیز بود، اما سختافزار آنها روی مدلی با نصف ابعاد مدل شیائومی آزمایش شد.
علاوه بر این، شتابدهندههای اختصاصی شرکت Groq نیز بسته به نوع مدل، فراتر از ۳۰۰ تا ۷۵۰ توکن در ثانیه نرفتهاند. مضاف بر اینکه هیچکدام از این سختافزارهای خاص را نمیتوان به راحتی از سرویسهای ابری رایج اجاره کرد، که همین امر ارزش کار شیائومی را دوچندان میکند.
در لایه فنی، دو بازوی اصلی محرک این سرعت به شمار میروند که اولینِ آنها تکنیک کوانتیزاسیون FP4 (فشردهسازی عددی)است. به موجب این تکنیک، شیائومی لایههای تخصصی مدل را تا حد ۴ بیت فشرده کرده است تا فشار پهنای باند کاملاً تخلیه شود و سرعت پردازش افزایش یابد.
با وجود اینکه چنین فشردهسازیهایی معمولاً به افت کیفیت منجر میشوند، جراحی دقیق شیائومی مانع این اتفاق شده است. به بیانی دیگر، از آنجا که سایر بخشهای حیاتی مدل دستنخورده باقی ماندهاند، افت کیفیت خروجی سیستم به صفر متمایل شده است.
بازوی دوم این فناوری، تکنیک رمزگشایی پبشرفته DFlash است که فرآیند زمانبر پیشنویسهای متوالی را به طور کامل حذف میکند. از طریق این نوآوری، کل یک بلوک متنی در یک گام تایید میشود که در سناریوهای کدنویسی موجب پذیرش ۶ توکن در هر مرحله به جای یک توکن واحد خواهد شد.
در نهایت، موتور نرمافزاری TileRT با مدیریت بهینه چرخه محاسبات در داخل پردازنده گرافیکی، هرگونه وقفه در فرآیند اجرا را کاملاً از بین میبرد. از این رو، شیائومی این معماری یکپارچه را طراحی همزمان و پیشرفته سیستم و مدل مینامد؛ چرا که این سرعت مافوقتصور، دقیقاً حاصل همافزایی همزمان این تکنیکهاست.
در خصوص ابعاد مالی نیز باید گفت که مدل پایه شیائومی برتری چشمگیری در مقرونبهصرفه بودن دارد. هزینه این مدل کمتر از یک دلار به ازای هر میلیون توکن است، در حالی که این رقم برای مدل رقیب یعنی کلود اوپوس به ۳۰ دلار میرسد که تفاوت بسیار فاحشی است.
از طرفی، ایجاد چنین سرعتی در استنتاج، زمین بازی هوش مصنوعی را به کلی عوض میکند. به عنوان مثال، سیستمهای کشف کلاهبرداری مالی و عاملهای هوشمند خودکار که پیش از این در محدودیت سرعت قفل شده بودند، اکنون با این جهش به واقعیت میپیوندند.
در همین راستا، شیائومی دسترسی به این نسخه فوقسریع را با قیمتی معادل ۳ برابر نسخه استاندارد اما با خروجی ۱۰ برابری عرضه میکند.
گفتنی است، دسترسی آزمایشی به این وبسرویس از ۹ ژوئن آغاز شده و فایلهای آن جهت راستیآزمایی عمومی در پلتفرم Hugging Face قرار گرفته است.

















