شرکت چینی دیپسیک نسخهای سبکتر و تقطیرشده از مدل پیشرفته استدلالی خود را با نام DeepSeek-R1-0528-Qwen3-8B معرفی کرد.
به گزارش تکناک، این مدل که بهعنوان نسخهای کوچکتر از مدل R1 اصلی شناخته میشود، توانسته در برخی از آزمونهای هوش مصنوعی عملکردی چشمگیر از خود نشان دهد و در عین حال تنها به یک کارت گرافیک با حافظه بالا برای اجرا نیاز دارد.
مدل جدید که بر پایه مدل Qwen3-8B توسعه داده شده (مدلی که شرکت علیبابا در ماه مه عرضه کرده بود) توانسته در آزمون AIME 2025 (شامل سوالات پیچیده ریاضی)، از مدل Gemini 2.5 Flash شرکت گوگل پیشی بگیرد. همچنین در آزمون HMMT نیز عملکرد آن بسیار نزدیک به مدل Phi-4 Reasoning Plus مایکروسافت بوده است. این دستاوردها در حالی به دست آمده که DeepSeek-R1-0528-Qwen3-8B نسخهای بسیار کمحجمتر و کممصرفتر از مدلهای کامل است.
به نقل از تککرانچ، مدلهای تقطیرشده بهطور معمول نسبت به نسخههای کامل خود قدرت پردازشی پایینتری دارند، اما نقطه قوت آنها در مصرف پایین منابع سختافزاری است. به گفته پلتفرم NodeShift، مدل Qwen3-8B برای اجرا به کارت گرافیکی با حافظه بین ۴۰ تا ۸۰ گیگابایت نیاز دارد (مانند کارتهای Nvidia H100). در مقابل، نسخه کامل R1 برای اجرا به دوازده کارت گرافیک ۸۰ گیگابایتی نیازمند است، که تفاوتی چشمگیر در بهرهوری و هزینه را نشان میدهد.

DeepSeek برای آموزش این مدل از متونی استفاده کرده که توسط نسخه بهروزشده مدل R1 تولید شدهاند و سپس آنها را برای بهینهسازی مدل Qwen3-8B به کار گرفته است. این مدل اکنون از طریق پلتفرم Hugging Face در دسترس قرار دارد و به گفته دیپسیک، هم برای تحقیقات آکادمیک در حوزه مدلهای استدلالی و هم برای توسعه صنعتی در مقیاس کوچک طراحی شده است.
مدل DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT منتشر شده است؛ مجوزی که استفاده تجاری و توسعه آزاد آن را بدون هیچگونه محدودیتی ممکن میسازد. همچنین پلتفرمهایی همچون LM Studio این مدل را از طریق API در اختیار توسعهدهندگان قرار دادهاند تا بتوانند بهسادگی از آن در پروژههای خود بهرهمند شوند.
با معرفی این مدل، DeepSeek بار دیگر نشان داد که میتوان تعادل بین توانایی محاسباتی و مصرف منابع را بهخوبی برقرار کرد، آنهم در زمانی که رقابت میان شرکتهای بزرگ هوش مصنوعی برای توسعه مدلهای قدرتمند و بهینهشده به اوج خود رسیده است.