امکان بارگذاری داده‌های چندرسانه‌ای در چت‌بات Grok فراهم شد

شرکت هوش مصنوعی xAI در حال افزودن اطلاعات چندرسانه‌ای به چت‌بات Grok است. با این قابلیت کاربران می‌توانند عکس‌ها را در Grok بارگذاری و پاسخ‌های متنی دریافت کنند.

به‌گزارش تک‌ناک، با قابلیت جدید Grok حالا کاربران می‌توانند تنها با بارگذاری عکس‌ها، پاسخ‌ پرسش‌های خود را دریافت کنند. این قابلیت اولین‌بار ماه گذشته در پست وبلاگی xAI معرفی شد که در آن گفته شده بود Grok-1.5V مدل‌های چندرسانه‌ای را در تعدادی از زمینه‌ها ارائه خواهد کرد. به‌نظر می‌رسد جدیدترین به‌روزرسانی اسناد توسعه‌دهندگان، نشان‌دهنده‌ی پیشرفت در ارائه مدلی جدید است.

در اسناد عمومی توسعه‌دهندگان، اسکریپت نمونه‌ی پایتون نشان می‌دهد که چگونه توسعه‌دهندگان می‌توانند از کتابخانه‌ی کیت توسعه‌ی نرم‌افزار xAI برای تولید پاسخی براساس متن و تصویر استفاده کنند. این اسکریپت فایل تصویری را می‌خواند و فراخوان متنی را تنظیم و از SDK شرکت xAI برای تولید پاسخ استفاده می‌کند.

این به‌روزرسانی بزرگی برای Grok است که xAI برای اولین‌بار آن را در نوامبر ۲۰۲۳ منتشر کرد و برای کاربرانی دردسترس است که اشتراک پریمیوم پلاس ایکس را خریده‌اند. آخرین به‌روزرسانی Grok 1.5 در مارس بود که با قابلیت‌های استدلال بهبودیافته همراه بود.

این مدل با استفاده از داده‌های متنی مختلف از منابع دردسترس عموم از اینترنت تا سه‌ماهه‌ی سوم ۲۰۲۳ و مجموعه داده‌هایی که بازبین‌های انسانی بررسی و مدیریت کرده‌اند، آموزش دیده است.Grok-1 با داده‌های X (از‌جمله پست‌های عمومی X) آموزش داده نشده است. با‌این‌حال، Grok از «دانش لحظه‌ای از جهان» از‌جمله پست‌های روی X برخوردار است.

شرکت xAI که در مارس ۲۰۲۳ به‌دست ایلان ماسک راه‌اندازی شد، درزمینه‌ی هوش مصنوعی نسبتاً جدید است و از رقبایی مانند OpenAI عقب است. با‌این‌حال، مدل Grok 1.5 شرکت xAI در حال کم‌کردن فاصله با GPT-4 در معیارهای مختلفی است که طیف وسیعی از مسائل رقابتی از دبستان تا دبیرستان را دربر می گیرد.

باید بدانید که معمولاً از بنچمارک‌های مدل‌های زبان بزرگ انتقاد می‌شود؛ زیرا اگر این بنچمارک‌ها در داده‌های آموزشی آن‌ها گنجانده شود، مدل‌ها می‌توانند در بنچمارک‌ها عملکرد موفقی داشته باشند. این شبیه حفظ‌کردن پاسخ‌های امتحان است تا اینکه واقعاً مطالب را یاد بگیرید.

به‌نظر می‌رسد چت‌بات‌های گفت‌وگومحور چندرسانه‌ای مرز بعدی هوش مصنوعی هستند. با پیشرفت‌های متعددی که در Google I/O اعلام شد و OpenAI مدل GPT-4o را منتشر کرد، فقدان قابلیت‌های چندرسانه‌ای Grok تاکنون مانع پیشرفت آن شده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.