علی‌بابا از خانواده مدل‌های ترکیبی هوش مصنوعی Qwen3 پرده‌برداری کرد

هوش مصنوعی Qwen3 علی‌بابا با ۸ نسخه و معماری‌های متنوع، از ۱۱۹ زبان پشتیبانی و امکان انتخاب بین سرعت و دقت را برای کاربران فراهم می‌کند.

به گزارش تک‌ناک، علی‌بابا روز از خانواده جدید مدل‌های هوش مصنوعی خود به نام Qwen3 پرده‌برداری کرد؛ مجموعه‌ای که به گفته شرکت چینی می‌تواند با بهترین مدل‌های ارائه‌شده گوگل و OpenAI رقابت کند و در برخی مواقع از آن‌ها پیشی بگیرد.

بیشتر مدل‌های Qwen3 هم‌اکنون یا به‌زودی با مجوز «متن‌باز» در پلتفرم‌های Hugging Face و GitHub برای دانلود در دسترس قرار خواهند گرفت. این مدل‌ها از ۰/۶ میلیارد تا ۲۳۵ میلیارد پارامتر دارند. این پارامترها توانایی مدل‌ها در حل مسائل را تعیین می‌کنند و هرچه بیشتر باشند، عملکرد مدل بهبود می‌یابد.

ظهور مدل‌هایی مانند Qwen از چین فشار بر آزمایشگاه‌های آمریکایی همچون OpenAI را برای ارائه فناوری‌های پیشرفته‌تر افزایش داده است. همچنین، سیاست‌گذاران آمریکایی را بر آن داشته است تا محدودیت‌هایی در فروش تراشه‌های پیشرفته به شرکت‌های چینی اعمال کنند.

به گفته علی‌بابا، مدل‌های هوش مصنوعی Qwen3 از طراحی «ترکیبی» بهره می‌برند. این یعنی بسته به پیچیدگی درخواست، می‌توانند برای مسائل دشوار زمان بیشتری صرف کنند یا به درخواست‌های ساده به‌سرعت پاسخ دهند. تیم Qwen با انتشار بیانیه‌ای اعلام کرد: «ما حالت‌های تفکری و غیرتفکری را یکپارچه کرده‌ایم و به کاربران امکان داده‌ایم که میزان بودجه تفکر را متناسب با نیازهای خود تنظیم کنند.»

Qwen3 با هشت نسخه و معماری‌های متنوع (متراکم و MoE)، از ۱۱۹ زبان پشتیبانی می‌کند

به نقل از تک‌کرانچ، برخی از مدل‌های Qwen3 از معماری Mixture of Experts (MoE) بهره می‌برند؛. این روش وظایف را به بخش‌های کوچک‌تر تقسیم می‌کند و به مدل‌های تخصصی‌تر می‌سپارد تا کارایی محاسباتی بیشتری داشته باشد. مدل‌های Qwen3 از ۱۱۹ زبان پشتیبانی می‌کنند و برمبنای دیتاستی متشکل از نزدیک به ۳۶ تریلیون توکن شامل کتاب‌های درسی، پرسش‌و‌پاسخ‌ها، قطعه‌های کد و داده‌های تولیدشده با هوش مصنوعی آموزش داده می‌شوند.

علی‌بابا اعلام کرد که این پیشرفت‌ها باعث شده‌اند تا هوش مصنوعی Qwen3 در مقایسه با نسخه Qwen2 پیشرفت چشمگیری تجربه کند. اگرچه مدل‌های Qwen3 نتوانسته‌اند به‌طور قاطع از مدل‌های پرچم‌دار فعلی مانند o3 یا o4-mini شرکت OpenAI پیشی بگیرند، همچنان عملکرد قدرتمندی از خود نشان داده‌اند.

در ارزیابی‌های انجام‌شده در پلتفرم Codeforces، بزرگ‌ترین مدل این خانواده، Qwen-3-235B-A22B، موفق شده است مدل o3-mini شرکت OpenAI و Gemini 2.5 Pro گوگل را پشت‌سر بگذارد. همچنین، این مدل در بنچمارک‌های چالش‌برانگیزی مانند AIME در حوزه ریاضیات و BFCL که توانایی مدل در استدلال را می‌سنجد، نتایج بهتری از o3-mini کسب کرده است. بااین‌حال، این مدل هنوز به‌طور عمومی منتشر نشده است.

در‌حال‌حاضر، بزرگ‌ترین مدل عمومی Qwen3، یعنی Qwen3-32B، نیز عملکرد رضایت‌بخشی ارائه می‌دهد و توانسته است در آزمایش‌هایی مانند LiveCodeBench از مدل o1 شرکت OpenAI پیشی بگیرد. طبق اعلام علی‌بابا، مدل‌های Qwen3 درزمینه فراخوانی ابزارها و پیروی از دستورها و حفظ فرمت‌های خاص داده نیز عملکرد موفقی از خود نشان می‌دهند. علاوه‌بر نسخه‌های دردسترس برای دانلود، از مدل‌های Qwen3 ازطریق ارائه‌دهندگان ابری مانند Fireworks AI و Hyperbolic می‌توان استفاده کرد.

تواین سریواستاوا، مدیرعامل شرکت میزبان ابری Baseten، در گفتگو با وب‌سایت تک‌کرانچ اظهار کرد که انتشار مدل‌های قدرتمندی مانند Qwen3 نشان می‌دهد مدل‌های متن‌باز در حال نزدیک‌شدن به مدل‌های بسته‌ای نظیر OpenAI هستند. او گفت:

با وجود محدودیت‌های آمریکا در فروش تراشه‌ها به چین و محدودیت خرید از چین، مدل‌هایی مانند Qwen3 که پیشرفته و متن‌باز هستند، بی‌شک به‌صورت داخلی استفاده خواهند شد.

به گفته سریواستاوا، روند یادشده بیانگر این واقعیت است که شرکت‌ها هم‌زمان در حال توسعه ابزارهای اختصاصی خود و استفاده از محصولات شرکت‌های بسته مانند آنتروپیک و OpenAI هستند.