مدل زبانی جدید DeepSeek-V3-0324 رونمایی شد. این مدل هوش مصنوعی را میتوان بهرایگان روی سختافزارهای معمولی اجرا کرد.
به گزارش تکناک، شرکت چینی دیپسیک اخیراً مدل زبانی جدید خود به نام DeepSeek-V3-0324 را منتشر کرده است. این مدل هوش مصنوعی ۶۴۱ گیگابایت حجم دارد و بدون تبلیغات و اطلاعرسانی گسترده، روی پلتفرم Hugging Face در دسترس قرار گرفته است. این اقدام در راستای سیاست همیشگی شرکت دیپسیک در رونماییهای بیسروصدا انجام شده است.
ویژگی منحصربهفرد این مدل استفاده از مجوز MIT است که اجازه استفاده تجاری رایگان را برای کاربران فراهم میکند. بنچمارکهای اولیه نشان میدهند که این مدل برخلاف بسیاری از مدلهای زبانی قدرتمند که نیازمند مراکز داده با توان پردازشی فراوان هستند، ازپس اجرا روی سختافزارهای مصرفی مانند مک استودیو اپل با تراشه M3 اولترا برمیآید. طبق گزارش دانشمند هوش مصنوعی، Awni Hannun، این مدل در چنین سیستمی به سرعت پردازش بیش از ۲۰ توکن بر ثانیه میرسد.
نئووین مینویسد که شرکت دیپسیک اعلام کرده است نسخه جدید این مدل در آزمایشهای اولیه در مقایسه با نسخههای قبلی بهبود چشمگیری یافته و در عملکرد، نتایج درخشانی ثبت کرده است. طبق ادعای این شرکت، مدل زبانی DeepSeek-V3-0324 حتی در برخی وظایف غیراستدلالی، عملکرد بهتری از Claude Sonnet 3.5 آنتروپیک ارائه داده است. بااینحال، برخلاف مدلهای اشتراکی مشابه، این نسخه را میتوان کاملاً رایگان دانلود و استفاده کرد.

ازنظر فنی، DeepSeek-V3-0324 مبتنیبر معماری Mixture-of-Experts یا MoE طراحی شده است. این ساختار به مدل اجازه میدهد تا در هر وظیفه فقط حدود ۳۷ میلیارد از ۶۸۵ میلیارد پارامتر خود را به کار گیرد که ضمن کاهش بار محاسباتی، عملکرد قدرتمند را تضمین میکند. علاوهبر این، استفاده از فناوریهای Multi-Head Latent Attention یا MLA و Multi-Token Prediction یا MTP به بهبود نگهداری زمینه و افزایش سرعت پاسخدهی مدل کمک کردهاند.
کاربران علاقهمند میتوانند ازطریق پلتفرمهای Hugging Face و API و رابط چت OpenRouter و نیز سرویس چت دیپسیک به این مدل دسترسی پیدا کنند. شرکت Hyperbolic Labs، یکی از ارائهدهندگان پردازش ابری، هم امکان اجرای این مدل را در زیرساخت خود فراهم کرده است.