به نظر میرسد که شرکت چینی DeepSeek به زودی مدل جدیدی به نام “DeepSeek R2” را روانه بازار میکند که هزینهها را نسبت به GPT-4 به میزان 97 درصد کاهش میدهد.
به گزارش تکناک، جزئیات این مدل جدید به تازگی در فضای آنلاین منتشر شده و توجه بسیاری از کارشناسان صنعت هوش مصنوعی را جلب کرده است.
مدل اول این شرکت، R1، به بازار غربی نشان داد که چین در زمینه توسعه مدلهای پیشرفته هوش مصنوعی هیچگونه کمبودی ندارد. انتشار این مدل به حدی تأثیرگذار بود که باعث کاهش میلیاردها دلار از ارزش بازار بورس ایالات متحده شد. همچنین این موضوع نشان داد که برای توسعه مدلهای هوش مصنوعی نیازی به هزینههای بالا وجود ندارد.
حالا رسانههای چینی گزارشهایی درباره شایعات مربوط به مدل DeepSeek R2 منتشر کردهاند. به گفته منابع چینی، این مدل از معماری ترکیبی MoE (Mixture of Experts) بهره خواهد برد، که نسخهای پیشرفته از MoE موجود است. این معماری به احتمال زیاد شامل مکانیزمهای پیشرفته گیتینگ یا ترکیبی از MoE و لایههای متراکم خواهد بود، که برای بهینهسازی بارهای کاری سنگین طراحی شدهاند. با این معماری، تعداد پارامترهای DeepSeek R2 دو برابر مدل R1 خواهد بود و به 1.2 تریلیون پارامتر میرسد.

این ویژگیها باعث شدهاند که R2 در رقابت با مدلهایی مانند: GPT-4 Turbo و Google Gemini 2.0 Pro قرار گیرد. اما این تنها ویژگی جذاب DeepSeek R2 نیست. گزارشها میگویند که هزینه هر واحد توکن این مدل نسبت به GPT-4 بیش از 97 درصد کاهش خواهد یافت. به طور مشخص، هزینه ورودی توکن DeepSeek R2 معادل 0.07 دلار در هر میلیون توکن و هزینه خروجی آن 0.27 دلار در هر میلیون توکن خواهد بود، که این قیمتگذاری آن را به گزینهای بسیار مقرونبهصرفه برای شرکتها تبدیل میکند.
موضوع دیگری که در گزارشها به آن اشاره شده، استفاده از چیپهای Ascend 910B هواوی برای آموزش مدل R2 است. این مدل قرار است با بهرهگیری از قدرت محاسباتی 512 پتافلاپس در دقت FP16، از منابع داخلی خود استفاده کند. این تصمیم DeepSeek به معنای «یکپارچهسازی عمودی» زنجیره تأمین هوش مصنوعی توسط این شرکت میباشد و نشاندهنده توجه ویژه به چیپهای هوش مصنوعی هواوی است.
البته لازم به ذکر است که تمامی این اطلاعات تنها بر اساس شایعات و گزارشهای رسانهای است و DeepSeek هنوز هیچگونه تأیید رسمی درباره ویژگیهای مدل R2 ارائه نکرده است. با وجود این، بهنظر میرسد که انتشار این مدل جدید قادر خواهد بود بار دیگر صنعت هوش مصنوعی و اقتصاد پیرامون آن را متحول کند.