پژوهشگران در چین اعلام کردند که فرایند پسآموزش مدل هوش مصنوعی DeepSeek V4 Pro با یک کلاستر متشکل از هزار تراشه Ascend 910C هواوی انجام شد.
به گزارش سرویس هوش مصنوعی تکناک، این ادعای روزنامه South China Morning Post که به نقل از دولت شهر شنژن منتشر شده، نشانهای از آن است که شتابدهندههای چینی اکنون توانایی مدیریت بار کاری در سطح آموزش مدلهای هوش مصنوعی را روی سیلیکون بومی دارند؛ بخشی از زنجیره توسعه هوش مصنوعی که شرکتهای چینی تحت محدودیتهای صادراتی آمریکا بیشترین دشواری را برای فاصله گرفتن از سختافزار انویدیا در آن تجربه کردهاند. هواوی این پروژه را با همکاری Shenzhen Loop Area Institute، پردیس شنژن مؤسسه فناوری هاربین و Shenzhen Research Institute of Big Data اجرا کرده است.
در حال حاضر Ascend 910C، پرچمدار شتابدهندههای هوش مصنوعی هواوی محسوب میشود؛ تراشهای دودایه که در آزمایشهای قبلی DeepSeek حدود 60 درصد از عملکرد استنتاج Nvidia H100 را ارائه داده بود. تراشههای چینی در حوزه استنتاج، یعنی مرحلهای که مدل آموزشدیده به پرسشها پاسخ میدهد، عملکرد رقابتی داشتهاند، اما در بخش آموزش که طی آن وزنهای مدل بر اساس مجموعهدادههای عظیم بازمحاسبه میشود، ضعیفتر ظاهر شدهاند. تیم تحقیقاتی اعلام کرده که در این پروژه، پسآموزش کامل پارامترهای DeepSeek V4‑Pro با 1.6 تریلیون پارامتر انجام شده است، به این معنا که تمام وزنهای مدل بهروزرسانی شدهاند و صرفا یک لایه نازک تطبیقی به مدل افزوده نشده است.
پسآموزش در واقع مرحله «تنظیم دقیق» است که پس از پیشآموزش بسیار گسترده انجام میشود. پیشآموزش، تواناییهای پایه مدل را با پردازش حجم عظیمی از متون شکل میدهد و طبق مستندات DeepSeek، مجموعه داده پیشآموزش V4‑Pro بیش از 32 تریلیون توکن بوده است.
سپس پسآموزش رفتار مدل را از طریق پیروی از دستورالعملها، همراستاسازی ایمنی و دادههای اختصاصی وظایف مختلف شکل میدهد. انجام این مرحله روی سیلیکون Ascend یک دستاورد واقعی برای این پلتفرم به حساب میآید، اما نشان نمیدهد که این تراشهها قادر به پیشآموزش یک مدل مرزی از ابتدا هستند؛ فرایندی که بسیار سنگینتر و پرهزینهتر است.
در ماه اوت گزارش شده بود که DeepSeek نتوانسته است حتی با حضور مهندسان هواوی در محل یک اجرای موفق آموزش برای مدل R2 خود را روی تراشههای Ascend تکمیل کند. دلیل این مسئله عملکرد ناپایدار، ارتباط کند میان تراشهها و کاستیهایی در پشته نرمافزاری CANN هواوی عنوان شده بود که جایگزین CUDA انویدیا محسوب میشود. در آن زمان، این شرکت برای آموزش به استفاده از پردازندههای گرافیکی انویدیا بازگشت و تراشههای Ascend را تنها برای استنتاج به کار گرفت. بر اساس گزارش تامز هاردور، مدل هوش مصنوعی DeepSeek‑V4‑Pro که در ماه آوریل منتشر شد، نخستین مدل DeepSeek بود که از ابتدا بر پایه Ascend توسعه یافت.
با وجود این، ادعای مطرحشده از سوی شنژن فاقد هرگونه بنچمارک است و اطلاعاتی درباره مدت زمان اجرای فرایند، مقایسه آن با همان وظیفه روی سختافزار انویدیا یا میزان بهرهوری کلاستر هزار تراشهای ارائه نمیدهد. در نهایت، این ادعا نیز به مجموعهای از گزارشهای تأییدنشدهای افزوده میشود که پیشتر از سوی نهادهای دولتی چین مطرح شدهاند، بدون آنکه مستندات پشتیبان ارائه شود. خود شرکت DeepSeek نیز تاکنون در این باره اظهار نظری نکرده است.

















