پردازش صوتی بدون نیاز به متن؛ دستاورد جدید Gemini 1.5 Pro

گوگل مدل Gemini 1.5 Pro را با قابلیت پردازش صوتی رونمایی کرد. این مدل می‌تواند به فایل‌های صوتی آپلود‌شده گوش کند و بدون نیاز به متن پیاده‌شده، اطلاعاتی را از تماس‌ها یا صدای ویدئوها استخراج کند.

به‌گزارش تک‌ناک، گوگل در رویداد Google Next، اعلام کرد که برای اولین‌بار Gemini 1.5 Pro را از‌طریق پلتفرم خود برای ساخت اپلیکیشن‌های هوش مصنوعی، Vertex AI، دردسترس عموم قرار می‌دهد.

Gemini 1.5 Pro برای اولین‌بار در فوریه معرفی شد. این نسخه جدید جمنای پرو که قرار است مدل میان‌رده خانواده‌ جمنای باشد، ازنظر عملکرد حتی از بزرگ‌ترین و قدرتمندترین مدل، یعنی جمنای اولترا، نیز فراتر می‌رود.

گوگل ادعا می‌کند که Gemini 1.5 Pro می‌تواند دستورالعمل‌های پیچیده را درک کند و دیگر نیازی به تنظیم دقیق مدل‌ها نیست. طبق گزارش ورج، دسترسی به Gemini 1.5 Pro برای افرادی میسر نیست که به Vertex AI دسترسی ندارند. درحال‌حاضر، بیشتر افراد مدل‌های زبان جمنای را ازطریق چت‌بات جمنای تجربه می‌کنند. جمنای اولترا چت‌بات پیشرفته جمنای را تأمین می‌کند و در‌عین‌حال که قدرتمند است و می‌تواند دستورهای طولانی را درک کند، به سرعت Gemini 1.5 Pro نیست.

Gemini 1.5 Pro تنها مدل هوش مصنوعی بزرگ گوگل نیست که به‌روزرسانی دریافت می‌کند. Imagen 2، مدل مولد تصویر از متن که به توانایی‌های تولید تصویر جمنای کمک می‌کند، قابلیت‌های Inpainting و Outpainting را نیز اضافه می‌کند که به کاربران اجازه می‌دهد تا عناصر را به تصاویر اضافه یا از آن‌ها حذف کنند.

گوگل ویژگی واترمارک دیجیتال SynthID خود را نیز روی تمام تصاویر ایجاد‌شده با مدل‌های Imagen در‌دسترس قرار داد. SynthID واترمارکی نامرئی برای بیننده به تصاویر اضافه می‌کند که هنگام مشاهده از‌طریق ابزار تشخیص، منشأ آن را مشخص می‌کند.

بسیاری از ویژگی‌های جدید Imagen، به‌ویژه قابلیت‌های Inpainting و Outpainting، پیش‌تر در دیگر مدل‌های تولید تصویر از متن مانند Stable Cascade متعلق به Stability AI و Generative AI متعلق به ایساتوک، روی گوشی‌های جدید گلکسی سامسونگ دیده شده‌اند.