گوگل در حال افزایش دسترسی کاربران به مدل هوش مصنوعی مولد تصویر Imagen 2 است. این دسترسی به مشتریان گوگل کلود محدود است که از Vertex AI استفاده کرده و برای دسترسی تأیید شدهاند.
بهگزارش تکناک و بهنقل از تککرانچ، مدل هوش مصنوعی مولد تصویر Imagen 2 گوگل عرضه شد. این شرکت اطلاعاتی درباره دادههای بهکاررفته برای آموزش این مدل جدید را افشا نمیکند. همچنین راهی برای خالقان محتوا ارائه نمیدهد که ممکن است ناخودآگاه به مجموعه دادهها کمک کرده باشند تا از آن خارج شوند یا برای دریافت جبران خسارت درخواست دهند.
Imagen 2، نسخه پیشرفتهتر گوگل، در کنفرانس I/O این شرکت در می۲۰۲۳ بهصورت پیشنمایش رونمایی شد. این مدل هوش مصنوعی مولد تصویر با استفاده از فناوریهای دیپمایند گوگل (Google DeepMind)، آزمایشگاه پیشرو هوش مصنوعی اهالی مانتینویو، توسعه یافته است. درمقایسهبا نسل اول Imagen، گوگل ادعا میکند که کیفیت تصویر بهبود چشمگیری یافته است.
توماس کوریان، مدیرعامل گوگل کلود، در نشستی خبری اعلام کرد که با استفاده از Imagen 2، کاربران میتوانند تصاویری مانند مانند تبلیغات با متن روی آن ایجاد کنند. Imagen 2 با قابلیت تولید متن و لوگو در ردیف دیگر مدلهای پیشرو تولیدکننده تصویر مانند DALL-E 3 از OpenAI و Titan Image Generator از آمازون قرار میگیرد.
دو ویژگی برجسته Imagen 2 عبارتاند از: توانایی رندرکردن متن به چندین زبان (شامل چینی، هندی، ژاپنی، کرهای، پرتغالی، انگلیسی و اسپانیایی) با برنامههایی برای اضافهکردن زبانهای بیشتر در سال 2024 و قراردادن لوگوها در تصاویر موجود.
ویشی تیرمالاشتی، رئیس محصولات رسانههای خلاق در گوگل، در پستی وبلاگی توضیح داده است که Imagen 2 میتواند نشانها و علامتهای حروفی و لوگوهای انتزاعی تولید کند و این لوگوها روی محصولات، لباسها، کارتهای تجاری و سطوح دیگر قرار دهد.
بهلطف «تکنیکهای آموزش و مدلسازی نوآورانه»، Imagen 2 میتواند درخواستهای توصیفی طولانی را بهتر درک کند و «پاسخهای دقیق» به پرسشهای مربوط به عناصر در تصویر ارائه دهد. این تکنیکها به بهبود درک چندزبانه Imagen 2 نیز کمک میکنند که به آن امکان میدهد درخواستی را در یک زبان با خروجیای مانند یک لوگو در زبانی دیگر ترجمه کند.
Imagen 2 که با استفاده از روش SynthID توسعهیافته Deepmind ساخته شده، شامل واترمارکهای نامرئی است. این واترمارکها با شیوههایی پیشرفته ایجاد میشوند که مقاومت زیادی دربرابر ویرایشهای تصویری مانند فشردهسازی و استفاده از فیلترها و تغییرات رنگ دارند.
بااینحال، تشخیص این واترمارکها که گوگل ادعا میکند مقاوماند، تنها با استفاده از ابزار خاصی امکانپذیر است که این شرکت ارائه داده و برای عموم دردسترس نیست. درحالیکه سیاستگذاران نگرانیهایی بابت افزایش میزان اطلاعات نادرست تولیدشده با هوش مصنوعی در وب دارند، این فناوری ممکن است به کاهش برخی از این ترسها کمک کند.
گوگل جزئیات دادههای آموزشی استفادهشده برای توسعه Imagen 2 را فاش نکرده است. این مسئله اگرچه مایه ناامیدی است، غیرمنتظره نیست. وجود این ابهام در اینکه آیا شرکتهای بزرگ فعال در حوزه هوش مصنوعی مانند گوگل میتوانند مدلی را با استفاده از دادههای عمومی (حتی دادههای دارای حق تکثیر) آموزش دهند و سپس آن را بهصورت تجاری عرضه کنند، همچنان موضوع حقوقی مبهمی است.
درباره این موضوع در دادگاهها با استدلالهایی مبنیبر حمایت از دکترین استفاده منصفانه بحث میشود؛ اما بهنظر میرسد که تعیین وضعیت نهایی آن مدتی بهطول انجامد. در همین حال، گوگل با سکوت خود درباره جزئیات دادههای استفادهشده در Imagen 2 از خود محافظت میکند. این رویکرد متفاوت از استراتژی اتخاذشده برای نسل اول Imagen است که در آن گوگل اعلام کرد از مجموعهدادههای عمومی LAION برای آموزش مدلش استفاده کرده است.
LAION بهدلیل اینکه شامل محتویات حساس و مشکلدار است (مانند تصاویر پزشکی خصوصی، آثار هنری دارای حق تکثیر و تصاویر ویرایششده پورنوگرافیکی از سلبریتیها)، قطعا برای گوگل بهترین تصویر را ارائه نمیدهد.
شرکتهای فعال درزمینه توسعه مولدهای تصویری مبتنیبر هوش مصنوعی رویکردهای متفاوتی درقبال حقوق خالقان محتوا دارند. شرکتهایی مانند Stability AI و تا چندی پیش OpenAI، به خالقان امکان میدهند که درصورت تمایل، از مجموعه دادههای آموزشی خود خارج شوند. درمقابل، شرکتهایی مانند Adobe و Getty Images در حال توسعه برنامههایی برای جبران خسارت خالقان هستند؛ هرچند این برنامهها ممکن است همیشه بهصورت شفاف و کافی نباشند.
دراینمیان، گوگل و چندین رقیب بزرگ آن مانند آمازون، مکانیزمی برای خروج یا جبران خسارت خالقان محتوا ارائه نمیدهند. بهنظر نمیرسد که این وضعیت در آینده نزدیک تغییر کند. بهجای آن، گوگل سیاستی در پیش میگیرد که مشتریان واجدشرایط Vertex AI را از ادعاهای حق تکثیر مرتبط با استفاده از دادههای آموزشی و خروجیهای Imagen 2 محافظت میکند.
یکی از نگرانیهای اصلی در این زمینه، پدیده بازتولید است؛ یعنی زمانیکه مدل تولیدی نمونههای آموزشی را بهصورت دقیق کپی میکند. این مسئله برای مشتریان تجاری و توسعهدهندگان نگرانی ایجاد کرده است. مطالعات آکادمیک نشان دادهاند که Imagen نسل اول نیز از این پدیده مصون نیست و گاهی اوقات تصاویر شناساییشدنی از افراد واقعی و آثار هنری دارای حق تکثیر و سایر اطلاعات را در پاسخ به درخواستهای خاص تولید کرده است.
در نظرسنجی اخیر Acrolinx از شرکتهای Fortune 500، تقریباً یکسوم از شرکتها اعلام کردهاند که مالکیت معنوی یکی از نگرانیهای مهم آنها برای استفاده از هوش مصنوعی مولد است. همچنین، در نظرسنجی دیگری مشخص شده است که ۹ تن از ۱۰ توسعهدهنده در تصمیمگیری خود برای استفاده از هوش مصنوعی تولیدی، محافظت از مالکیت معنوی را بسیار در نظر میگیرند.
گوگل امیدوار است با سیاست جدید خود به این نگرانیها پاسخ دهد. شرایط جدید جبران خسارت گوگل که پیشازاین خروجیهای Imagen را پوشش نمیداد، حالا بهنظر میرسد که این مسئله را در کانون توجه قرار داده است. بااینحال، بهنظر میرسد که در این دوره، خالقان کمتر خوششانسی دارند و نگرانیهای آنها کمتر مدنظر قرار گرفته است. این موضوع بیانگر مشکلات پیش رو در تعادل برقرارکردن بین نوآوری در هوش مصنوعی و حفظ حقوق مالکیت معنوی است.