گوگل دیپ‌مایند با معرفی Veo 2، وارد رقابت جدی با OpenAI در تولید ویدیو شد

شرکت گوگل دیپ‌مایند از مدل ویدیویی جدید Veo 2 خود رونمایی کرده که هدف آن رقابت با مدل پیشرفته Sora شرکت OpenAI است.

به گزارش تک‌ناک، این مدل جدید با تمرکز بر پردازش پیشرفته ویدیوها، بهبود کیفیت تولید ویدیوهای مبتنی بر هوش مصنوعی و افزایش دقت در تحلیل محتوای ویدیویی طراحی شده است.

گوگل دیپ‌مایند، لابراتوار تحقیقاتی هوش مصنوعی شرکت گوگل، این مدل را به عنوان جایگزینی برای نسخه پیشین یعنی Veo عرضه کرده است و تلاش دارد تا OpenAI را در زمینه تولید محتوای ویدیویی مبتنی بر هوش مصنوعی پشت سر بگذارد.

مدل Veo 2 قادر به تولید کلیپ‌هایی با کیفیت 4K (۴۰۹۶ در ۲۱۶۰ پیکسل) و طول بیش از دو دقیقه است؛ قابلیتی که نسبت به مدل Sora از OpenAI که حداکثر وضوح 1080p و طول ۲۰ ثانیه دارد، یک پیشرفت چشمگیر به حساب می‌آید.

01
از 05
ویژگی‌ها و قابلیت‌های Veo 2

به نقل از تک‌کرانچ، مدل Veo 2 از قابلیت‌های متعددی بهره‌مند است که آن را از نسخه قبلی متمایز می‌کند. این مدل می‌تواند ویدیوهایی در سبک‌های مختلف و بر اساس ورودی‌های متنی (مانند: یک ماشین در حال حرکت در بزرگراه) یا ترکیبی از متن و تصویر مرجع تولید کند.

طبق ادعای دیپ‌مایند، مدل Veo 2 دارای درک بهتری از فیزیک و کنترل دوربین است و در مقایسه با نسخه قبلی، تصاویر شفاف‌تر و بافت‌های دقیق‌تری تولید می‌کند. به‌ عنوان مثال، در صحنه‌هایی با حرکت زیاد، جزئیات تصاویر واضح‌تر هستند و کنترل‌های پیشرفته دوربین امکان ثبت اشیا و افراد از زوایای مختلف را فراهم می‌آورد.

همچنین گوگل دیپ‌مایند تأکید کرده است که این مدل توانایی بهتری در شبیه‌سازی حرکت، دینامیک مایعات (مانند ریختن قهوه در فنجان) و افکت‌های نوری (مانند انعکاس‌ها و سایه‌ها) دارد.

این قابلیت‌ها شامل شبیه‌سازی لنزهای مختلف و افکت‌های سینمایی مانند: بازتاب نور یا تغییر حالت لنز می‌شود. علاوه بر این، Veo 2 قادر به نمایش حالات انسانی به شکل «جزئیات‌نگرانه» و با دقت بیشتری است.

ویژگی‌ها و قابلیت‌های مدل Veo 2 گوگل دیپ‌مایند

02
از 05
چالش‌ها و محدودیت‌های Veo 2

با وجود پیشرفت‌های قابل توجه، مدل Veo 2 هنوز با چالش‌هایی روبه‌رو است. الی کالینز، معاون محصول در گوگل دیپ‌مایند، اذعان کرده است که این مدل در تولید جزئیات پیچیده، حرکات سریع و حفظ سازگاری شخصیت‌ها در ویدیوهای طولانی، نیاز به بهبود دارد.

همچنین او به محدودیت‌های فعلی در وضوح و طول ویدیوهای تولیدشده اشاره کرد. در حال حاضر، ویدیوهایی که با استفاده از VideoFX (ابزار آزمایشی گوگل) تولید می‌شوند، به وضوح 720p و طول ۸ ثانیه محدود شده‌اند.

کالینز تأکید کرد که دیپ‌مایند در حال همکاری با هنرمندان و تهیه‌کنندگان محتوا برای بهبود این مدل است. به گفته او، همکاری با هنرمندان برجسته‌ای مانند: Donald Glover، The Weeknd و دیگر خلاقان از ابتدای توسعه Veo آغاز شده و این بازخوردها به شکل‌گیری Veo 2 کمک کرده است.

03
از 05
امنیت و مسائل حقوقی Veo 2

یکی از موضوعات بحث‌برانگیز درباره Veo 2، نحوه آموزش این مدل است. دیپ‌مایند اعلام کرده که این مدل با استفاده از تعداد زیادی ویدیو و توضیحات مرتبط آموزش دیده، اما جزئیاتی درباره منابع دقیق این داده‌ها ارائه نکرده است.

گمان می‌رود که YouTube، به‌ عنوان یکی از دارایی‌های گوگل، منبع احتمالی این داده‌ها باشد. این موضوع نگرانی‌هایی را در زمینه حقوق مالکیت محتوا ایجاد کرده است.

شرکت گوگل دیپ‌مایند برای کاهش خطرات امنیتی، از فناوری واترمارک نامرئی SynthID بهره می‌گیرد، که ویدیوهای تولیدشده را شناسایی و از سوءاستفاده از آنها جلوگیری می‌کند. هرچند که این فناوری همچنان محدودیت‌هایی دارد و نمی‌تواند به‌ طور کامل از سوءاستفاده جلوگیری کند.

علاوه بر این، دیپ‌مایند به انتقاداتی مبنی بر عدم ارائه راهکاری برای حذف آثار خلاقانه از مجموعه‌های آموزشی خود پاسخ داده است. این شرکت همچنان معتقد است که استفاده از داده‌های عمومی برای آموزش مدل‌ها، تحت مفهوم «استفاده منصفانه» قرار می‌گیرد و نیازی به کسب اجازه از صاحبان محتوا نیست.

امنیت و مسائل حقوقی مدل Veo 2 گوگل دیپ‌مایند

04
از 05
به‌روزرسانی‌های Imagen 3

شرکت گوگل دیپ‌مایند هم‌زمان با رونمایی از Veo 2، نسخه جدید مدل تولید تصویر خود با نام Imagen 3 را نیز معرفی کرد. این مدل که در ابزار ImageFX استفاده می‌شود، قابلیت تولید تصاویر روشن‌تر، دقیق‌تر و با ترکیب‌بندی بهتر در سبک‌های عکاسی، مانند: واقع‌گرایی، امپرسیونیسم و انیمه را دارد.

طبق اعلام دیپ‌مایند، این نسخه جدید درک بهتری از دستورهای متنی دارد و می‌تواند جزئیات بیشتری را در تصاویر ارائه کند. همچنین رابط کاربری ابزار ImageFX بهبود یافته است و اکنون کاربران می‌توانند با استفاده از پیشنهادات کلمات مرتبط، ورودی‌های خود را سریع‌تر ویرایش کنند.

05
از 05
آینده Veo 2 و Imagen 3

گوگل دیپ‌مایند اعلام کرده است که قصد دارد Veo 2 را به پلتفرم Vertex AI منتقل کند و این مدل را برای توسعه‌دهندگان در مقیاس وسیع‌تر در دسترس قرار دهد.

همچنین این شرکت امیدوار است که با استفاده از بازخوردهای کاربران و همکاری با هنرمندان، محدودیت‌های فعلی را کاهش دهد و کاربردهای جذاب‌تری را در اکوسیستم گوگل ایجاد کند.

با معرفی Veo 2 و به‌روزرسانی‌های Imagen 3، گوگل دیپ‌مایند بار دیگر نشان داده که در تلاش است جایگاه خود را در رقابت با دیگر شرکت‌های هوش مصنوعی مانند OpenAI تقویت کند و مرزهای فناوری تولید محتوای بصری را گسترش دهد.