مدل دیپ‌سیک V3.1 با توانایی پردازش متن ۱۲۸ هزار توکن رونمایی شد

به گزارش تک‌ناک، مدل دیپ‌سیک V3.1 دیپ‌سيک با ۱۲۸ هزار توکن و ۶۸۵ میلیارد پارامتر، تولید محتوای طولانی و تحلیل پیچیده اسناد را متحول می‌کند.

به گزارش تک‌ناک، شرکت چینی دیپ‌سيک از انتشار نسخه ۳/۱ مدل زبانی بزرگ خود خبر داد؛ مدلی که با گسترش پنجره متنی به ۱۲۸ هزار توکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد، حالا به‌عنوان پرچم‌دار جدید این شرکت شناخته می‌شود.

مهم‌ترین تغییر در مدل دیپ‌سیک V3.1 افزایش طول متن پردازش‌شدنی است. این مدل اکنون توانایی مدیریت ورودی‌هایی معادل کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را دارد. کارشناسان می‌گویند که این ویژگی می‌تواند کیفیت تولید محتوای بلند و تحلیل اسناد فنی و مکالمات طولانی را ارتقای چشمگیری دهد.

گیزموچاینا می‌نویسد که مدل جدید دیپ‌سیک همچنان برپایه معماری Mixture-of-Experts (MoE) طراحی شده است و تنها ۳۷ میلیارد پارامتر در هر توکن فعال می‌شوند. DeepSeek V3.1 از قالب‌های مختلف دقت محاسباتی ازجمله BF16 و FP8 و F32 پشتیبانی می‌کند و توسعه‌دهندگان می‌توانند آن را ازطریق API یا از پلتفرم Hugging Face تحت مجوز MIT دریافت کنند.

نتایج اولیه نشان می‌دهد که مدل دیپ‌سیک V3.1 در آزمون‌های بنچمارک مستقل عملکردی چشمگیر از خود نشان داده است. در آزمون برنامه‌نویسی Aider، این مدل امتیاز ۷۱/۶ درصدی کسب کرد که بالاتر از Claude Opus 4 قرار گرفت و آن را به یکی از مدل‌های متن‌باز قدرتمند برنامه‌نویسی تبدیل کرد. در حوزه ریاضی و منطق نیز، بهبود عملکرد مشاهده شد؛ هرچند برخی کاربران معتقدند این نسخه در مقایسه با مدل R1-0528، پیشرفت محسوسی در استدلال نکرده است.

یکی از نکات مهم حذف همه ارجاعات به مدل R1 در رابط کاربری چت‌بات است. این اقدام نشان می‌دهد که دیپ‌سيک تصمیم گرفته است تا به‌جای توسعه چند مدل جداگانه، معماری ترکیبی واحدی را با تمرکز بر V3.1 دنبال کند. اگرچه هزینه آموزش نسخه جدید اعلام نشده است، گزارش‌ها نشان می‌دهند که نسخه پیشین V3 با صرف ۲/۷۸۸ میلیون ساعت GPU و با استفاده از چیپ‌های H800 انویدیا و هزینه‌ای معادل ۵/۶ میلیون دلار آموزش دیده بود. به نظر می‌رسد نسخه کنونی نیز بر همین زیرساخت، ولی با اصلاحات و بهینه‌سازی‌های بیشتر بنا شده است.

بسیاری از فعالان این حوزه انتظار داشتند که مدل بعدی دیپ‌سيک نسخه R2 باشد؛ مدلی که قرار بود توانایی‌های استدلال را ارتقا دهد. بااین‌حال به گزارش فایننشیال تایمز، مشکلات فنی در چیپ‌های هوش مصنوعی Ascend هواوی دلیل اصلی تأخیر در انتشار این نسخه بوده است.

به گفته منابع آگاه، فشارها برای کاهش وابستگی به انویدیا باعث شد تا دیپ‌سيک آموزش مدل را روی چیپ‌های Ascend آغاز کند؛ اما مشکلات عملکردی و سازگاری این تلاش را ناکام گذاشت. در نهایت، شرکت به استفاده از GPUهای انویدیا برای آموزش بازگشت؛ هرچند استنتاج همچنان برپایه Ascend انجام می‌شود که پیچیدگی‌ها و تأخیرهای بیشتری به‌همراه داشته است.

این اتفاق‌ها درحالی رخ داده که رقبایی همچون Qwen3 علی‌بابا با سرعت بیشتری مدل‌های مشابه را منتشر کرده‌اند. این روند باردیگر ضعف زیرساخت سخت‌افزاری داخلی چین در حوزه تراشه‌های هوش مصنوعی را آشکار کرده است. گفته می‌شود که بنیان‌گذار دیپ‌سيک، لیانگ ون‌فنگ، از روند کُند توسعه ابراز نارضایتی کرده است.

هرچند دیپ‌سيک احتمال انتشار مدل R2 را منتفی ندانسته است، کارشناسان معتقدند هر زمان که این مدل منتشر شود، با بررسی و ارزیابی دقیق‌تری از نسخه‌های پیشین روبه‌رو خواهد شد. تا آن زمان، مدل دیپ‌سیک V3.1 پرچم‌دار فعلی شرکت باقی می‌ماند و هم وظایف استدلالی و هم غیراستدلالی را در چهارچوبی واحد پوشش می‌دهد.