شیائومی با MiMo رکورد سرعت هوش مصنوعی را شکست

مدل هوش مصنوعی جدید شیائومی، MiMo ، با ثبت سرعت بی‌سابقه ۱۰۰۰ توکن در ثانیه روی سخت‌افزارهای معمولی، رقبای آمریکایی خود را به چالش کشید.

به گزارش سرویس هوش مصنوعی تک ناک؛ شیائومی که بیشتر به واسطه ساخت گوشی‌های هوشمند و اسکوترهای برقی ارزان‌قیمت شناخته می‌شود، حالا در قامت یک مدعی جدی در عرصه هوش مصنوعی ظاهر شده است. این شرکت فراتر از انتظار کارشناسان، در یک شروع طوفانی موفق شد رکورد جهانی سرعت استنتاج را در صدر اخبار فناوری قرار دهد.

در همین راستا، شیائومی از سازوکار پردازشی جدیدی برای مدل پرچمدار یک تریلیون پارامتری خود با نام MiMo-V2.5-Pro-UltraSpeed پرده برداشت. شایان ذکر است که سرعت پردازش این مدل از مرز ۱۰۰۰ توکن در ثانیه عبور کرده و حتی در ارزیابی‌های اولیه به سقف ۱۲۰۰ توکن نیز رسیده است.

به منظور درک بهتر این ساختار، باید اشاره کرد که پارامترها همان وزن‌های عددی هستند که میزان پیچیدگی درک مدل را تعیین می‌کنند. از سوی دیگر، توکن‌ها نیز واحدهای متنی بازخوانی و نگارش مدل محسوب می‌شوند که هر کدام به طور میانگین معادل سه چهارم یک کلمه هستند.

به نقل از Decrypt، شیائومی این جهش بزرگ را تنها با به‌کارگیری یک نود استاندارد شامل ۸ پردازنده گرافیکی معمولی موجود در بازار رقم زده است. این دستاورد بی‌سابقه، یعنی بی‌نیازی مطلق از تراشه‌های سفارشی، معادلات تجاری شرکت‌ها را برای پیاده‌سازی هوش مصنوعی پرسرعت دگرگون می‌کند.

با مقایسه این آمار متنوع متوجه می‌شویم که بر اساس سنجش‌های موسسه Artificial Analysis، مدل GPT-5.5 که پایه خدمات ChatGPT است، سرعت مأیوس‌کننده ۶۸ توکن در ثانیه را ارائه می‌دهد. این در حالی است که غول جدید شیائومی در شاخص‌های کلیدی کدنویسی کاملاً با مدل ۷۱ توکنی Claude Opus هم‌سطح است، اما با سرعتی باورنکردنی عملیات را اجرا می‌کند.

پیش از این، شرکت‌های نوظهوری مثل Cerebras و گروک تمام استراتژی تجاری خود را بر حل این چالش متمرکز کرده بودند. برای نمونه، Cerebras با طراحی یک ابرتراشه غول‌پیکر تلاش کرد گلوگاه پهنای باند را دور بزند که اگرچه موفقیت‌آمیز بود، اما سخت‌افزار آن‌ها روی مدلی با نصف ابعاد مدل شیائومی آزمایش شد.

علاوه بر این، شتاب‌دهنده‌های اختصاصی شرکت Groq نیز بسته به نوع مدل، فراتر از ۳۰۰ تا ۷۵۰ توکن در ثانیه نرفته‌اند. مضاف بر اینکه هیچ‌کدام از این سخت‌افزارهای خاص را نمی‌توان به راحتی از سرویس‌های ابری رایج اجاره کرد، که همین امر ارزش کار شیائومی را دوچندان می‌کند.

در لایه فنی، دو بازوی اصلی محرک این سرعت به شمار می‌روند که اولینِ آن‌ها تکنیک کوانتیزاسیون FP4 (فشرده‌سازی عددی)است. به موجب این تکنیک، شیائومی لایه‌های تخصصی مدل را تا حد ۴ بیت فشرده کرده است تا فشار پهنای باند کاملاً تخلیه شود و سرعت پردازش افزایش یابد.

با وجود اینکه چنین فشرده‌سازی‌هایی معمولاً به افت کیفیت منجر می‌شوند، جراحی دقیق شیائومی مانع این اتفاق شده است. به بیانی دیگر، از آنجا که سایر بخش‌های حیاتی مدل دست‌نخورده باقی مانده‌اند، افت کیفیت خروجی سیستم به صفر متمایل شده است.

بازوی دوم این فناوری، تکنیک رمزگشایی پبشرفته DFlash است که فرآیند زمان‌بر پیش‌نویس‌های متوالی را به طور کامل حذف می‌کند. از طریق این نوآوری، کل یک بلوک متنی در یک گام تایید می‌شود که در سناریوهای کدنویسی موجب پذیرش ۶ توکن در هر مرحله به جای یک توکن واحد خواهد شد.

در نهایت، موتور نرم‌افزاری TileRT با مدیریت بهینه چرخه محاسبات در داخل پردازنده گرافیکی، هرگونه وقفه در فرآیند اجرا را کاملاً از بین می‌برد. از این رو، شیائومی این معماری یکپارچه را طراحی هم‌زمان و پیشرفته سیستم و مدل می‌نامد؛ چرا که این سرعت مافوق‌تصور، دقیقاً حاصل هم‌افزایی هم‌زمان این تکنیک‌هاست.

در خصوص ابعاد مالی نیز باید گفت که مدل پایه شیائومی برتری چشمگیری در مقرون‌به‌صرفه بودن دارد. هزینه این مدل کمتر از یک دلار به ازای هر میلیون توکن است، در حالی که این رقم برای مدل رقیب یعنی کلود اوپوس به ۳۰ دلار می‌رسد که تفاوت بسیار فاحشی است.

از طرفی، ایجاد چنین سرعتی در استنتاج، زمین بازی هوش مصنوعی را به کلی عوض می‌کند. به عنوان مثال، سیستم‌های کشف کلاهبرداری مالی و عامل‌های هوشمند خودکار که پیش از این در محدودیت سرعت قفل شده بودند، اکنون با این جهش به واقعیت می‌پیوندند.

در همین راستا، شیائومی دسترسی به این نسخه فوق‌سریع را با قیمتی معادل ۳ برابر نسخه استاندارد اما با خروجی ۱۰ برابری عرضه می‌کند.

گفتنی است، دسترسی آزمایشی به این وب‌سرویس از ۹ ژوئن آغاز شده و فایل‌های آن جهت راستی‌آزمایی عمومی در پلتفرم Hugging Face قرار گرفته است.

برچسب‌ها: p6