مدل DeepSeek-V3 استاندارد جدیدی برای مدل‌های هوش مصنوعی متن‌باز ایجاد می‌کند

مدل DeepSeek-V3 با استفاده از معماری پیشرفته و داده‌های گسترده آموزشی، قابلیت‌های پردازش زبان طبیعی را ارتقا و به جامعه متن‌باز ابزار قدرتمندتری ارائه می‌دهد.

به گزارش تک‌ناک، آزمایشگاه تحقیقاتی هوش مصنوعی چینی DeepSeek AI با معرفی مدل جدید خود به نام DeepSeek-V3، تحول بزرگی در دنیای مدل‌های زبان متن‌باز ایجاد کرده است. این مدل Mixture-of-Experts (MoE) که ۶۷۱ میلیارد پارامتر دارد، از ۳۷ میلیارد پارامتر فعال برای هر توکن بهره می‌برد.

طبق نتایج بررسی‌ها و معیارهای معتبر درزمینه هوش مصنوعی، DeepSeek-V3 قوی‌ترین مدل متن‌باز موجود است و حتی در مقایسه با مدل‌های غیرمتن‌باز شناخته‌شده‌ای نظیر GPT-4o شرکت OpenAI و Claude 3.5 شرکت آنتروپیک، عملکرد بهتری از خود نشان می‌دهد.

DeepSeek-V3 موفق شده است در نُه معیار مختلف، بهترین نتایج را در میان مدل‌های مشابه خود کسب کند. این مدل در مقایسه با سایر مدل‌های مشابه در اندازه خود، بهترین عملکرد را در معیارهای مهم ثبت کرده است. این موفقیت‌های چشمگیر در شرایطی رخ می‌دهند که DeepSeek-V3 تنها به ۲/۷۸۸ میلیون ساعت GPU از نوع H800 و ۵/۶ میلیون دلار هزینه برای آموزش نیاز دارد. این در حالی است که مدل مشابه متن‌باز Llama 3 405B به ۳۰/۸ میلیون ساعت GPU برای آموزش نیازمند است.

معرفی مدل جدید DeepSeek AI به نام DeepSeek-V3

به نقل از نئووین، یکی از ویژگی‌های مهم مدل DeepSeek-V3، بهره‌مندی از آموزش FP8 و بهینه‌سازی‌های مهندسی عمیق است که موجب شده این مدل ازنظر هزینه‌ای بسیار مقرون‌به‌صرفه باشد. این مدل در‌زمینه استنتاج نیز بسیار کارآمد است.

از ۸ فوریه ۲۰۲۵، هزینه ورودی این مدل برای هر یک‌میلیون توکن برابر با ۰/۲۷ دلار و درصورت استفاده از کشینگ، این هزینه به ۰/۰۷ دلار کاهش خواهد یافت. علاوه‌بر این، هزینه خروجی آن معادل ۱/۱۰ دلار برای هر میلیون توکن خواهد بود. این قیمت‌ها بسیار کمتر از هزینه‌ای است که OpenAI و دیگر شرکت‌های پیشرو درزمینه هوش مصنوعی برای مدل‌های پرچم‌دار خود دریافت می‌کنند.

تیم DeepSeek با انتشار پستی در شبکه اجتماعی X اعلام کرده است که مأموریت این شرکت همچنان ثابت‌قدم باقی خواهد ماند. آن‌ها از پیشرفت‌های خود در این زمینه بسیار خوشحال و امیدوارند که با معرفی این مدل، شکاف میان مدل‌های متن‌باز و غیرمتن‌باز کاهش یابد. به گفته آن‌ها، این تنها آغاز مسیر است و انتظار می‌رود در آینده نزدیک، DeepSeek-V3 از پشتیبانی چندوجهی و ویژگی‌های پیشرفته‌تری در اکوسیستم DeepSeek برخوردار شود.

مدل DeepSeek-V3 هم‌اکنون در گیت‌هاب و HuggingFace در دسترس است. با توجه به عملکرد درخورتوجه و هزینه‌های اندک این مدل، DeepSeek-V3 می‌تواند دسترسی به مدل‌های پیشرفته هوش مصنوعی را برای عموم افراد و شرکت‌ها تسهیل کند و به‌نوعی در دموکراتیزه کردن این فناوری گام مهمی بردارد. انتشار این مدل گامی مهم به‌سمت کاهش شکاف میان مدل‌های متن‌باز و غیرمتن‌باز در حوزه هوش مصنوعی محسوب می‌شود.