مدل DeepSeek-V3 با استفاده از معماری پیشرفته و دادههای گسترده آموزشی، قابلیتهای پردازش زبان طبیعی را ارتقا و به جامعه متنباز ابزار قدرتمندتری ارائه میدهد.
به گزارش تکناک، آزمایشگاه تحقیقاتی هوش مصنوعی چینی DeepSeek AI با معرفی مدل جدید خود به نام DeepSeek-V3، تحول بزرگی در دنیای مدلهای زبان متنباز ایجاد کرده است. این مدل Mixture-of-Experts (MoE) که ۶۷۱ میلیارد پارامتر دارد، از ۳۷ میلیارد پارامتر فعال برای هر توکن بهره میبرد.
طبق نتایج بررسیها و معیارهای معتبر درزمینه هوش مصنوعی، DeepSeek-V3 قویترین مدل متنباز موجود است و حتی در مقایسه با مدلهای غیرمتنباز شناختهشدهای نظیر GPT-4o شرکت OpenAI و Claude 3.5 شرکت آنتروپیک، عملکرد بهتری از خود نشان میدهد.
DeepSeek-V3 موفق شده است در نُه معیار مختلف، بهترین نتایج را در میان مدلهای مشابه خود کسب کند. این مدل در مقایسه با سایر مدلهای مشابه در اندازه خود، بهترین عملکرد را در معیارهای مهم ثبت کرده است. این موفقیتهای چشمگیر در شرایطی رخ میدهند که DeepSeek-V3 تنها به ۲/۷۸۸ میلیون ساعت GPU از نوع H800 و ۵/۶ میلیون دلار هزینه برای آموزش نیاز دارد. این در حالی است که مدل مشابه متنباز Llama 3 405B به ۳۰/۸ میلیون ساعت GPU برای آموزش نیازمند است.
به نقل از نئووین، یکی از ویژگیهای مهم مدل DeepSeek-V3، بهرهمندی از آموزش FP8 و بهینهسازیهای مهندسی عمیق است که موجب شده این مدل ازنظر هزینهای بسیار مقرونبهصرفه باشد. این مدل درزمینه استنتاج نیز بسیار کارآمد است.
از ۸ فوریه ۲۰۲۵، هزینه ورودی این مدل برای هر یکمیلیون توکن برابر با ۰/۲۷ دلار و درصورت استفاده از کشینگ، این هزینه به ۰/۰۷ دلار کاهش خواهد یافت. علاوهبر این، هزینه خروجی آن معادل ۱/۱۰ دلار برای هر میلیون توکن خواهد بود. این قیمتها بسیار کمتر از هزینهای است که OpenAI و دیگر شرکتهای پیشرو درزمینه هوش مصنوعی برای مدلهای پرچمدار خود دریافت میکنند.
تیم DeepSeek با انتشار پستی در شبکه اجتماعی X اعلام کرده است که مأموریت این شرکت همچنان ثابتقدم باقی خواهد ماند. آنها از پیشرفتهای خود در این زمینه بسیار خوشحال و امیدوارند که با معرفی این مدل، شکاف میان مدلهای متنباز و غیرمتنباز کاهش یابد. به گفته آنها، این تنها آغاز مسیر است و انتظار میرود در آینده نزدیک، DeepSeek-V3 از پشتیبانی چندوجهی و ویژگیهای پیشرفتهتری در اکوسیستم DeepSeek برخوردار شود.
مدل DeepSeek-V3 هماکنون در گیتهاب و HuggingFace در دسترس است. با توجه به عملکرد درخورتوجه و هزینههای اندک این مدل، DeepSeek-V3 میتواند دسترسی به مدلهای پیشرفته هوش مصنوعی را برای عموم افراد و شرکتها تسهیل کند و بهنوعی در دموکراتیزه کردن این فناوری گام مهمی بردارد. انتشار این مدل گامی مهم بهسمت کاهش شکاف میان مدلهای متنباز و غیرمتنباز در حوزه هوش مصنوعی محسوب میشود.