شرکت پیشرو «دیپ سیک» با معرفی روش mHC، راهکاری برای یکی از پرهزینهترین چالشهای دنیای فناوری یافته است: جلوگیری از اتلاف انرژی و زمان در فرآیند آموزش مدلهای غولآسا.
به گزارش سرویس هوشمصنوعی تکناک، با آغاز سال ۲۰۲۶، رقابت در دنیای هوش مصنوعی از فاز «بزرگتر کردن مدلها» به فاز «بهینهسازی فرآیندها» تغییر جهت داده است. شرکت دیپسیک (DeepSeek)، که به نوآوریهای زیرساختی شهرت دارد، در جدیدترین مقاله پژوهشی خود از معماری جدیدی رونمایی کرد که میتواند میلیاردها دلار در هزینههای محاسباتی و انرژی صرفهجویی کند.
این روش که با نام «هایپرکانکشن با محدودیت منیفولد» (mHC) معرفی شده، پاسخی به یکی از بزرگترین دردهای توسعهدهندگان هوش مصنوعی است: ناپایداری و شکست در حین آموزش.
تا به امروز، آموزش مدلهای زبانی بزرگ (LLM) شباهت زیادی به یک قمار پرریسک داشت. بسیاری از این مدلها در میانه فرآیند آموزش، به دلیل ناپایداریهای ریاضی دچار شکست (Crash) میشوند. این اتفاق به معنای نابودی هفتهها تلاش شبانهروزی، هدررفت مقادیر عظیمی از الکتریسیته و اشغال هزاران ساعت از توان پردازندههای گرافیکی (GPU) گرانقیمت است.
گزارشها نشان میدهند که شرکتهای بزرگ پیش از این مجبور بودند در صورت بروز چنین خطاهایی، فرآیند را از صفر شروع کنند؛ موضوعی که نه تنها هزینهها را دوچندان میکرد، بلکه ردپای کربنی هوش مصنوعی را به شدت افزایش میداد.
ایده اصلی پشت معماری mHC دیپسیک، فراتر از افزایش قدرت عملکرد است. هدف این روش، «پیشبینیپذیر» کردن رفتار مدلها در زمان بزرگ شدن است.
به زبان ساده، این تکنولوژی اجازه نمیدهد که مدل در حین یادگیری از مسیر منطقی خود خارج شود. با حفظ پایداری ساختاری، مدلها میتوانند بدون نیاز به نظارت مستمر و بدون ریسک فروپاشی، مراحل آموزش را تا انتها طی کنند.

مزایای کلیدی این معماری عبارتند از:
- کاهش چشمگیر اتلاف انرژی: با حذف نیاز به شروع مجدد (Restart)، کل انرژی مصرفی برای رسیدن به یک مدل نهایی کاهش مییابد.
- بهرهوری از سختافزار موجود: به جای اضافه کردن هزاران پردازنده جدید (روش Brute Force)، از همان توان پردازشی فعلی استفاده بهینهتری میشود.
- تسهیل مقیاسپذیری: توسعهدهندگان اکنون میتوانند با اطمینان بیشتری مدلهای بزرگتر بسازند، بدون اینکه نگران رفتارهای غیرقابل پیشبینی در مقیاسهای عظیم باشند.
پژوهشگران دیپسیک تاکید کردهاند که این روش قرار نیست مشکل کمبود جهانی تراشه را یکشبه حل کند، اما میتواند فشار را از روی مراکز داده بردارد. در واقع، mHC به معنای «انجام کارهای بیشتر با منابع کمتر» است.
به نقل از گیزموچاینا، کارشناسان معتقدند در سال ۲۰۲۶، برنده رقابت هوش مصنوعی شرکتی نیست که بیشترین پردازنده گرافیکی را در اختیار دارد، بلکه شرکتی است که میتواند مدلهای خود را با کمترین میزان خطا و کمترین ساعت محاسباتی تلفشده به مرحله بهرهبرداری برساند.
با معرفی این معماری جدید توسط DeepSeek، حالا توپ در زمین رقباست تا نشان دهند چگونه میخواهند با هزینههای کمرشکن و اشتهای سیریناپذیر مدلهای هوش مصنوعی برای مصرف انرژی مقابله کنند.

















