گوگل مدل هوش مصنوعی مولد تصویر Imagen 2 را عرضه کرد

گوگل در حال افزایش دسترسی کاربران به مدل هوش مصنوعی مولد تصویر Imagen 2 است. این دسترسی به مشتریان گوگل کلود محدود است که از Vertex AI استفاده کرده و برای دسترسی تأیید شده‌اند.

به‌گزارش تک‌ناک و به‌نقل از تک‌کرانچ، مدل هوش مصنوعی مولد تصویر Imagen 2 گوگل عرضه شد. این شرکت اطلاعاتی درباره داده‌های به‌کاررفته برای آموزش این مدل جدید را افشا نمی‌کند. همچنین راهی برای خالقان محتوا ارائه نمی‌دهد که ممکن است ناخودآگاه به مجموعه داده‌ها کمک کرده باشند تا از آن خارج شوند یا برای دریافت جبران خسارت درخواست دهند.

Imagen 2، نسخه پیشرفته‌تر گوگل، در کنفرانس I/O این شرکت در می۲۰۲۳ به‌صورت پیش‌نمایش رونمایی شد. این مدل هوش مصنوعی مولد تصویر با استفاده از فناوری‌های دیپ‌مایند گوگل (Google DeepMind)، آزمایشگاه پیشرو هوش مصنوعی اهالی مانتین‌ویو، توسعه یافته است. درمقایسه‌با نسل اول Imagen، گوگل ادعا می‌کند که کیفیت تصویر بهبود چشمگیری یافته است.

توماس کوریان، مدیرعامل گوگل کلود، در نشستی خبری اعلام کرد که با استفاده از Imagen 2، کاربران می‌توانند تصاویری مانند مانند تبلیغات با متن روی آن ایجاد کنند. Imagen 2 با قابلیت تولید متن و لوگو در ردیف دیگر مدل‌های پیشرو تولید‌کننده تصویر مانند DALL-E 3 از OpenAI و Titan Image Generator از آمازون قرار می‌گیرد.

دو ویژگی برجسته Imagen 2 عبارت‌اند از: توانایی رندر‌کردن متن به چندین زبان (شامل چینی، هندی، ژاپنی، کره‌ای، پرتغالی، انگلیسی و اسپانیایی) با برنامه‌هایی برای اضافه‌کردن زبان‌های بیشتر در سال 2024 و قرار‌دادن لوگوها در تصاویر موجود.

ویشی تیرمالاشتی، رئیس محصولات رسانه‌های خلاق در گوگل، در پستی وبلاگی توضیح داده است که Imagen 2 می‌تواند نشان‌ها و علامت‌های حروفی و لوگوهای انتزاعی تولید کند و این لوگوها روی محصولات، لباس‌ها، کارت‌های تجاری و سطوح دیگر قرار دهد.

به‌لطف «تکنیک‌های آموزش و مدل‌سازی نوآورانه»، Imagen 2 می‌تواند درخواست‌های توصیفی طولانی را بهتر درک کند و «پاسخ‌های دقیق» به پرسش‌های مربوط به عناصر در تصویر ارائه دهد. این تکنیک‌ها به بهبود درک چندزبانه Imagen 2 نیز کمک می‌کنند که به آن امکان می‌دهد درخواستی را در یک زبان با خروجی‌ای مانند یک لوگو در زبانی دیگر ترجمه کند.

Imagen 2 که با استفاده از روش SynthID توسعه‌یافته Deepmind ساخته شده، شامل واترمارک‌های نامرئی است. این واترمارک‌ها با شیوه‌هایی پیشرفته ایجاد می‌شوند که مقاومت زیادی در‌برابر ویرایش‌های تصویری مانند فشرده‌سازی و استفاده از فیلترها و تغییرات رنگ دارند.

با‌این‌حال، تشخیص این واترمارک‌ها که گوگل ادعا می‌کند مقاوم‌اند، تنها با استفاده از ابزار خاصی امکان‌پذیر است که این شرکت ارائه داده و برای عموم در‌دسترس نیست. در‌حالی‌که سیاست‌گذاران نگرانی‌هایی بابت افزایش میزان اطلاعات نادرست تولید‌شده با هوش مصنوعی در وب دارند، این فناوری ممکن است به کاهش برخی از این ترس‌ها کمک کند.

گوگل جزئیات داده‌های آموزشی استفاده‌شده برای توسعه Imagen 2 را فاش نکرده است. این مسئله اگرچه مایه ناامیدی است، غیرمنتظره نیست. وجود این ابهام در اینکه آیا شرکت‌های بزرگ فعال در حوزه هوش مصنوعی مانند گوگل می‌توانند مدلی را با استفاده از داده‌های عمومی (حتی داده‌های دارای حق تکثیر) آموزش دهند و سپس آن را به‌صورت تجاری عرضه کنند، همچنان موضوع حقوقی مبهمی است.

درباره این موضوع در دادگاه‌ها با استدلال‌هایی مبنی‌بر حمایت از دکترین استفاده منصفانه بحث می‌شود؛ اما به‌نظر می‌رسد که تعیین وضعیت نهایی آن مدتی به‌طول انجامد. در همین حال، گوگل با سکوت خود درباره جزئیات داده‌های استفاده‌شده در Imagen 2 از خود محافظت می‌کند. این رویکرد متفاوت از استراتژی اتخاذ‌شده برای نسل اول Imagen است که در آن گوگل اعلام کرد از مجموعه‌داده‌های عمومی LAION برای آموزش مدلش استفاده کرده است.

LAION به‌دلیل اینکه شامل محتویات حساس و مشکل‌دار است (مانند تصاویر پزشکی خصوصی، آثار هنری دارای حق تکثیر و تصاویر ویرایش‌شده پورنوگرافیکی از سلبریتی‌ها)، قطعا برای گوگل بهترین تصویر را ارائه نمی‌دهد.

شرکت‌های فعال در‌زمینه توسعه مولدهای تصویری مبتنی‌بر هوش مصنوعی رویکردهای متفاوتی در‌قبال حقوق خالقان محتوا دارند. شرکت‌هایی مانند Stability AI و تا چندی پیش OpenAI، به خالقان امکان می‌دهند که در‌صورت تمایل، از مجموعه داده‌های آموزشی خود خارج شوند. درمقابل، شرکت‌هایی مانند Adobe و Getty Images در حال توسعه برنامه‌هایی برای جبران خسارت خالقان هستند؛ هرچند این برنامه‌ها ممکن است همیشه به‌صورت شفاف و کافی نباشند.

در‌این‌میان، گوگل و چندین رقیب بزرگ آن مانند آمازون، مکانیزمی برای خروج یا جبران خسارت خالقان محتوا ارائه نمی‌دهند. به‌نظر نمی‌رسد که این وضعیت در آینده نزدیک تغییر کند. به‌جای آن، گوگل سیاستی در پیش می‌گیرد که مشتریان واجد‌شرایط Vertex AI را از ادعاهای حق‌ تکثیر مرتبط با استفاده از داده‌های آموزشی و خروجی‌های Imagen 2 محافظت می‌کند.

یکی از نگرانی‌های اصلی در این زمینه، پدیده بازتولید است؛ یعنی زمانی‌که مدل تولیدی نمونه‌های آموزشی را به‌صورت دقیق کپی می‌کند. این مسئله برای مشتریان تجاری و توسعه‌دهندگان نگرانی ایجاد کرده است. مطالعات آکادمیک نشان داده‌اند که Imagen نسل اول نیز از این پدیده مصون نیست و گاهی اوقات تصاویر شناسایی‌شدنی از افراد واقعی و آثار هنری دارای حق تکثیر و سایر اطلاعات را در پاسخ به درخواست‌های خاص تولید کرده است.

در نظرسنجی اخیر Acrolinx از شرکت‌های Fortune 500، تقریباً یک‌سوم از شرکت‌ها اعلام کرده‌اند که مالکیت معنوی یکی از نگرانی‌های مهم آن‌ها برای استفاده از هوش مصنوعی مولد است. همچنین، در نظرسنجی دیگری مشخص شده است که ۹ تن از ۱۰ توسعه‌دهنده در تصمیم‌گیری خود برای استفاده از هوش مصنوعی تولیدی، محافظت از مالکیت معنوی را بسیار در نظر می‌گیرند.

گوگل امیدوار است با سیاست جدید خود به این نگرانی‌ها پاسخ دهد. شرایط جدید جبران خسارت گوگل که پیش‌از‌این خروجی‌های Imagen را پوشش نمی‌داد، حالا به‌نظر می‌رسد که این مسئله را در کانون توجه قرار داده است. با‌این‌حال، به‌نظر می‌رسد که در این دوره، خالقان کمتر خوش‌شانسی دارند و نگرانی‌های آن‌ها کمتر مدنظر قرار گرفته است. این موضوع بیانگر مشکلات پیش‌ رو در تعادل برقرار‌کردن بین نوآوری در هوش مصنوعی و حفظ حقوق مالکیت معنوی است.