گوگل با معرفی مدل جدید هوش مصنوعی متن به تصویر Imagen 4 وارد رقابت جدیتری با هوشهای مصنوعی DALL-E 3 و میدجرنی شد.
به گزارش تکناک، گوگل مدل جدید هوش مصنوعی متن به تصویر Imagen 4 را رونمایی کرد. به گفته این شرکت، مدل یادشده در بازنمایی دقیقتر متن در مقایسه با نسخه قبلی، Imagen 3، عملکرد بهتری دارد. این مدل بههمراه نسخه پیشرفتهتری با نام Imagen 4 Ultra معرفی شده که برای کاربران نیازمند به اجرای دقیقتر دستورهای متنی در تولید تصویر طراحی شده است. هر دو مدل هماکنون ازطریق API جمنای بهصورت پیشنمایش پولی در دسترس قرار دارند و امکان آزمایش رایگان محدود آنها در Google AI Studio فراهم است.
مدل پایه Imagen 4 با قیمت ۰٫۰۴ دلار برای هر تصویر، بهعنوان گزینه مناسب برای انجام بیشتر وظایف طراحی شده است. در مقابل، نسخه Ultra که با افزایش ۵۰ درصدی قیمت و نرخ ۰٫۰۶ دلار عرضه میشود، زمانی کاربرد دارد که کاربر نیازمند تطابق دقیق تصویر با دستور متنی باشد. گوگل مدعی است که خروجی این نسخه در مقایسه با مدلهای مطرحی مانند Dall-E 3 و Midjourney 7، عملکردی قویتر دارد.

انگجت مینویسد که در نمایش تواناییهای Imagen 4 Ultra، گوگل مجموعهای از تصاویر را منتشر کرد. یکی از این نمونهها، کمیکی سهپنله بود که فضاپیمایی کوچک را در حال مبارزه با مارمولک فضایی آبیرنگ نشان میداد. جلوههای صوتی همچون «Crunch!» و «Had!!» نیز در آن گنجانده شده بود. تصویر با دقت زیاد متن ورودی را دنبال میکرد و سبک بصری آن مشابه رندر کارتونی نرمافزارهای سهبعدی بود.
در مثالی دیگر، دستور تولید تصویر شامل «جلو کارتپستال قدیمی از کیوتو با پاگودا، شکوفههای گیلاس، کوههای برفی و آسمان آبی» بود که مدل Imagen 4 با دقت فراوان آن را تولید کرد؛ هرچند تصویر خروجی فاقد حس هنری یا شخصیت منحصربهفرد بود. سایر تصاویر نیز شامل زوجی در حال کوهنوردی و صحنهای ساختگی از فشنشوی آوانگارد بودند که همگی از کیفیت مطلوب برخوردار بودند؛ اما همچنان جلوهای ماشینی داشتند.

با وجود پیشرفتهایی که در مدل جدید Imagen دیده میشود، بسیاری از کاربران همچنان آن را در برابر مدلهای رقیب چندان چشمگیر نمیدانند. همچنین، علاقه عمومی به هنر تولیدشده با هوش مصنوعی به نظر میرسد در حال کاهش است و استفاده گسترده آن بیشتر به تبلیغات در شبکههای اجتماعی یا درج در انتهای مقالات اینترنتی محدود شده است.