مدل زبانی Qwen2.5-Max شرکت علیبابا در آزمایشهای بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است.
به گزارش تکناک، شرکت علیبابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارکهای مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نهتنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمونها توانسته GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز پشتسر بگذارد
نئووین مینویسد که هفته گذشته، اخبار فناوری تحتتأثیر دیپسیک قرار گرفتند؛ زیرا این شرکت مدل جدید خود، R1 را معرفی کرد که بهبودهایی در پردازش پرسشها ارائه میدهد. پیشاز این، مدل DeepSeek-V3 که در دسامبر منتشر شده بود، عملکرد چشمگیری در بنچمارکها از خود نشان داد. اکنون، علیبابا با معرفی Qwen2.5-Max نهتنها DeepSeek-V3 را پشتسر گذاشته، بلکه در برخی آزمایشها، GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز مغلوب کرده است.
مانند دیپسیک، مدل Qwen2.5-Max نیز به مسائل سیاسی چین حساس است و به این پرسشها پاسخ نمیدهد. در Qwen Chat، هنگام تلاش برای طرح این نوع پرسشها، پیام «سقف مجاز پرسشها را رد کردهاید» نمایش داده میشود؛ اما درصورت تغییر موضوع، پاسخها بدون محدودیت ارائه میشوند.
علیبابا برای ارزیابی این مدل، آن را با استفاده از چندین آزمون مهم با رقبا مقایسه کرده است:
- MMLU-Pro: سنجش دانش ازطریق مسائل سطح دانشگاهی
- LiveCodeBench: ارزیابی توانایی کدنویسی
- LiveBench: آزمونی جامع برای بررسی قابلیتهای عمومی
- Arena-Hard: مدلی برای ارزیابی میزان تطابق مدل با اولویتهای انسانی
نتایج این بنچمارکها نشان میدهد که Qwen2.5-Max در Arena-Hard با امتیاز ۸۹/۴ در جایگاه نخست ایستاده است و DeepSeek-V3 با امتیاز ۸۵/۵ پساز آن قرار دارد. در MMLU-Pro، مدل Claude Sonnet با امتیاز ۷۸ برتری داشته؛ درحالیکه Qwen2.5-Max با ۷۶.۱ در جایگاه دوم قرار گرفته است. در GPQA-Diamond، مدل Claude با ۶۵ پیشتاز است و Qwen2.5-Max با ۶۰/۱ در رتبه بعدی قرار دارد.
در آزمون LiveCodeBench، مدل Claude با امتیاز ۳۸/۹ کمی بهتر از Qwen2.5-Max با ۳۸/۷ عمل کرده است. بااینحال، در LiveBench، مدل علیبابا با کسب امتیاز ۶۲/۲ در مقایسه با دیپسیک با امتیاز ۶۰/۵، عملکرد بهتری نشان داده است.
این شرکت برخی آزمونهای دیگر را نیز اجرا کرده است؛ اما بهدلیل ماهیت بسته مدلهایی مانند GPT-4o و Claude، امکان ارزیابی مستقیم آنها فراهم نبوده است. Qwen2.5-Max اکنون ازطریق API در دسترس توسعهدهندگان قرار گرفته است تا بتوانند آن را در پلتفرمهای خود ادغام کنند. کاربران نیز ازطریق Qwen Chat میتوانند به این مدل دسترسی داشته باشند و از قابلیتهایی نظیر Artifacts و تولید تصویر و ویدئو استفاده کنند. گزینهای نیز برای جستوجوی وب در نظر گرفته شده که بهزودی فعال خواهد شد.
با انتشار Qwen2.5-Max، پژوهشگران شرکتهای فناوری آمریکایی بهاحتمال زیاد تحقیقات جدید علیبابا را بهدقت بررسی خواهند کرد تا راهکارهای بهینهتری برای توسعه مدلهای خود بیابند.
دیدگاهها 1