گوگل مدل Gemini 1.5 Pro را با قابلیت پردازش صوتی رونمایی کرد. این مدل میتواند به فایلهای صوتی آپلودشده گوش کند و بدون نیاز به متن پیادهشده، اطلاعاتی را از تماسها یا صدای ویدئوها استخراج کند.
بهگزارش تکناک، گوگل در رویداد Google Next، اعلام کرد که برای اولینبار Gemini 1.5 Pro را ازطریق پلتفرم خود برای ساخت اپلیکیشنهای هوش مصنوعی، Vertex AI، دردسترس عموم قرار میدهد.
Gemini 1.5 Pro برای اولینبار در فوریه معرفی شد. این نسخه جدید جمنای پرو که قرار است مدل میانرده خانواده جمنای باشد، ازنظر عملکرد حتی از بزرگترین و قدرتمندترین مدل، یعنی جمنای اولترا، نیز فراتر میرود.
گوگل ادعا میکند که Gemini 1.5 Pro میتواند دستورالعملهای پیچیده را درک کند و دیگر نیازی به تنظیم دقیق مدلها نیست. طبق گزارش ورج، دسترسی به Gemini 1.5 Pro برای افرادی میسر نیست که به Vertex AI دسترسی ندارند. درحالحاضر، بیشتر افراد مدلهای زبان جمنای را ازطریق چتبات جمنای تجربه میکنند. جمنای اولترا چتبات پیشرفته جمنای را تأمین میکند و درعینحال که قدرتمند است و میتواند دستورهای طولانی را درک کند، به سرعت Gemini 1.5 Pro نیست.
Gemini 1.5 Pro تنها مدل هوش مصنوعی بزرگ گوگل نیست که بهروزرسانی دریافت میکند. Imagen 2، مدل مولد تصویر از متن که به تواناییهای تولید تصویر جمنای کمک میکند، قابلیتهای Inpainting و Outpainting را نیز اضافه میکند که به کاربران اجازه میدهد تا عناصر را به تصاویر اضافه یا از آنها حذف کنند.
گوگل ویژگی واترمارک دیجیتال SynthID خود را نیز روی تمام تصاویر ایجادشده با مدلهای Imagen دردسترس قرار داد. SynthID واترمارکی نامرئی برای بیننده به تصاویر اضافه میکند که هنگام مشاهده ازطریق ابزار تشخیص، منشأ آن را مشخص میکند.
بسیاری از ویژگیهای جدید Imagen، بهویژه قابلیتهای Inpainting و Outpainting، پیشتر در دیگر مدلهای تولید تصویر از متن مانند Stable Cascade متعلق به Stability AI و Generative AI متعلق به ایساتوک، روی گوشیهای جدید گلکسی سامسونگ دیده شدهاند.