گوگل مدل پیشرفته هوش مصنوعی جدید Gemini 2.0 Flash را رونمایی کرده است که قابلیت تولید متن و تصاویر و گفتار را بهصورت یکپارچه دارد.
به گزارش تکناک، گوگل با معرفی مدل هوش مصنوعی جدید خود، Gemini 2.0 Flash، وارد مرحلهای جدید در عرصه هوش مصنوعی مولد شده است. این مدل پیشرفته برای تولید متن و تصویر و صدا کاربرد دارد. به گفته گوگل، از قابلیتهای منحصربهفردی برخوردار است که آن را از مدلهای قبلی متمایز میکند.
فهرست مطالب
پاسخ به رقابتهای OpenAI
به نقل از تککرانچ، با ورود مدلهای جدید هوش مصنوعی از OpenAI، گوگل تصمیم گرفته است که Gemini 2.0 Flash را بهعنوان رقیبی قدرتمند در برابر این مدلها معرفی کند. این مدل علاوهبر توانایی تولید متن، قابلیتهای جدیدی درزمینه تولید تصویر و صدا دارد که به کاربران امکان میدهد تا محتوای مولد را در گسترهای وسیعتر تولید کنند.
قابلیتهای منحصربهفرد Gemini 2.0 Flash
مدل جدید هوش مصنوعی گوگل بهطور بومی توانایی تولید متن و تصویر و صدا را دارد. علاوهبر این، این مدل میتواند از اپلیکیشنها و خدمات شخص ثالث استفاده کند و این امکان را فراهم میآورد که از جستوجوی گوگل بهرهبرداری و کد اجرا کند و حتی با APIهای خارجی تعامل داشته باشد.
نسخه آزمایشی Gemini 2.0 Flash از امروز ازطریق API Gemini و پلتفرمهای توسعهدهندگان هوش مصنوعی گوگل مانند AI Studio و Vertex AI در دسترس قرار خواهد گرفت. ویژگیهای تولید صدا و تصویر فقط برای شرکای دسترسی زودهنگام در دسترس است و بهطور عمومی در ماه ژانویه منتشر خواهد شد.
ارتقای قابلیتها و سرعت
نسخههای پیشین مدل Flash مانند 1.5 Flash تنها میتوانستند متن کنند و برای بارهای کاری سنگین طراحی نشده بودند. در مقابل، Gemini 2.0 Flash بهگونهای ارتقا یافته است که علاوهبر سرعت زیاد، تواناییهای بیشتری در زمینههای مختلف دارد. این مدل به توسعهدهندگان اجازه میدهد تا با استفاده از ابزارهایی مانند جستوجو بهراحتی با دادهها تعامل کنند و ابزارهای خارجی را به کار گیرند.
بهبود درخورتوجه در عملکرد و دقت
طبق آزمایشهای گوگل، Gemini 2.0 Flash در مقایسه با مدلهای قبلی، بهویژه مدل 1.5 Pro، بهبود چشمگیری در عملکرد و سرعت داشته است. این مدل ازنظر تواناییهای ریاضی و دقت اطلاعات بسیار بهینهتر عمل میکند و در زمینههایی مانند کدنویسی و تحلیل تصاویر پیشرفت زیادی کرده است. بهطور خاص، این مدل بهعنوان مدل پیشرفته Gemini جایگزین 1.5 Pro شده است.
ویژگیهای جدید در تولید صدا و تصویر
یکی از ویژگیهای برجسته Gemini 2.0 Flash، توانایی تولید و ویرایش همزمان تصاویر و متن است. این مدل میتواند از عکسها و ویدئوها و صداها استفاده کند و به سؤالات مربوط به آنها پاسخ دهد.
تولید صدا نیز ویژگی مهم دیگر Gemini 2.0 Flash است. این مدل قابلیت تنظیم صدا برای لهجهها و زبانهای مختلف را دارد و میتواند متن را با یکی از هشت صدای بهینهسازیشده روایت کند. همچنین، کاربران میتوانند از مدل درخواست کنند که سرعت صحبتکردن را تنظیم کند یا حتی آن را بهگونهای شبیه به یک دزد دریایی تنظیم کنند.
تضمین کیفیت با استفاده از SynthID
گوگل برای جلوگیری از سوءاستفادههای احتمالی از تکنولوژی SynthID برای علامتگذاری تمامی محتوای تولیدشده با Gemini 2.0 Flash استفاده خواهد کرد. این تکنولوژی بهطور خاص برای علامتگذاری تصاویر و صداهایی که بهواسطه مدلهای مصنوعی تولید میشوند، طراحی شده است تا کاربران بتوانند از اصالت محتوای خود اطمینان حاصل کنند. این اقدام در راستای مقابله با تهدیدات ناشی از دیپفیکها و افزایش تقلبهای دیجیتال صورت گرفته است.
API جدید برای توسعهدهندگان
در کنار مدل Gemini 2.0 Flash، گوگل API جدید به نام Multimodal Live API را معرفی کرده است. این API به توسعهدهندگان امکان میدهد تا اپلیکیشنهای چندمدلی با قابلیت پخش زنده صوتی و تصویری ایجاد کنند. این API بهویژه در مواقعی کاربرد خواهد داشت که به تعامل با ویدئوها و صداها در زمان واقعی نیاز باشد.
گوگل اعلام کرده است که این API از امروز بهطور عمومی در دسترس قرار گرفته است و توسعهدهندگان میتوانند از آن برای ایجاد اپلیکیشنهایی با تعاملات طبیعی و مکالمات زنده استفاده کنند.