تیم Qwen شرکت علیبابا Qwen2.5-VL، خانوادهای جدید از مدلهای هوش مصنوعی این شرکت را با قابلیت تحلیل متن و ویدئو و تصویر رونمایی کرد.
به گزارش تکناک، مدل هوش مصنوعی Qwen2.5-VL علیبابا منتشر شد. این مدل میتواند فایلها را پردازش کند، ویدئوها را تحلیل کند، اشیاء را در تصاویر بشمارند و حتی کامپیوتر را کنترل کنند. عملکرد این مدلها مشابه مدلی است که اخیراً OpenAI برای Operator معرفی کرده است.
براساس نتایج بنچمارک، مدل Qwen2.5-VL توانسته در ارزیابیهایی مانند تحلیل ویدئو، مسائل ریاضی، پردازش اسناد و پاسخدهی به پرسشها، از مدلهای مطرحی همچون GPT-4o و Claude 3.5 Sonnet و Gemini 2.0 Flash عملکرد بهتری نشان دهد.
این مدل که در اپلیکیشن Qwen Chat علیبابا برای آزمایش در دسترس قرار دارد و از پلتفرم Hugging Face آماده دانلود است، نمودارها و گرافیکها را میتواند تحلیل و دادههای موجود در اسکن فاکتورها و فرمها را استخراج و ویدئوهای چندساعته را درک کند.
به گفته تیم توسعهدهنده علیبابا، این مدل توانایی شناسایی IPهای مرتبط با فیلمها و سریالهای تلویزیونی و محصولات مختلف را دارد که نشان میدهد ممکن است بخشی از دادههای آموزشی آن شامل آثار دارای حقکپی بوده باشد.
با توجه به اینکه مدل Qwen2.5-VL را شرکتی چینی توسعه داده است، در موضوعاتی که در Qwen Chat به آنها پرداخته میشود، محدودیتهایی وجود دارد. برای نمونه، وقتی از مدل Qwen2.5-VL-72B خواسته شد تا درباره «اشتباهات شی جینپینگ» صحبت کند، پیام خطایی نمایش داده شد.
طبق دستورالعمل رگولاتوری اینترنت چین، بسیاری از مدلهای توسعهیافته در این کشور باید پاسخهایی ارائه دهند که با «ارزشهای اصلی سوسیالیستی» همخوانی داشته باشد. به همین دلیل، بسیاری از سیستمهای هوش مصنوعی چینی از پاسخدهی به موضوعاتی مانند استقلال تایوان خودداری میکنند.
یکی از قابلیتهای مهم هوش مصنوعی جدید علیبابا تعامل آن با نرمافزارها در کامپیوترها و دستگاههای موبایل است. در ویدئویی که فیلیپ اشمید (Philipp Schmid) از Hugging Face منتشر کرده است، این مدل اپلیکیشن Booking.com را روی اندروید اجرا و پروازی از چونگکینگ به پکن رزرو میکند.
در ویدئویی دیگر نیز، مدل Qwen2.5-VL اپلیکیشنهای دسکتاپ لینوکس را کنترل میکند؛ اما به نظر میرسد که عملکرد آن به تغییر تبها محدود شده است. همین مسئله نشان میدهد که مدل در بنچمارک OSWorld که تلاش میکند محیط واقعی کامپیوتر را شبیهسازی کند، امتیاز کمی کسب کرده است.
دو مدل کوچکتر از سری Qwen2.5-VL، یعنی Qwen2.5-VL-3B و Qwen2.5-VL-7B، بهصورت متنباز ارائه شدهاند. بااینحال مدل پیشرفتهتر Qwen2.5-VL-72B تحت مجوز سفارشی علیبابا قرار دارد که طبق آن، شرکتها و توسعهدهندگانی با بیش از ۱۰۰ میلیون کاربر فعال ماهانه باید پیشاز استفاده تجاری از این مدل، مجوز لازم را از تیم Qwen یا شرکت علیبابا دریافت کنند.
دیدگاهها 1