شرکت گوگل مدل جدید Gemini Omni را برای تبدیل متن به ویدیو معرفی کرده که با درک بهتر دنیای واقعی، پایداری کاراکترها را نسبت به مدل Veo بهبود بخشیده است.
به گزارش سرویس هوش مصنوعی تکناک، سال گذشته من عروسک مخملی بچهام را دیپفیک کردم تا طوری به نظر برسد که گوزن پارچهای آن به تعطیلات رفته است. این فقط یک آزمایش بود تا ببینم میتوانم صحنههایی را که در یک آگهی گوگل از Gemini نمایش داده شده بود، بازسازی کنم یا خیر. هیچوقت ویدیوهای سفر «بادی» گوزن را به پسر چهار سالهام نشان ندادم، اما این تجربه برای من یک خط تفکیک جدی بین «تفریح بیضرر با هوش مصنوعی مولد» و «اسلاپ تمامعیار» کشید. شاید این دو دایره در واقع یک دایره کامل باشند، شاید هم نه؛ اما چیزی که مطمئن هستم این است که ابزارهای ساخت ویدیوهای واقعگرایانه، فوقالعاده خوب شدهاند و به طرز شگفتانگیزی تلاش و دانش کمی میخواهند.
این روند حالا در عصر جدید مدل Gemini Omni هم با قدرت ادامه دارد. Omni یک خانواده جدید از مدلهای مولد است که قرار است در نهایت بتوانند هر نوع ورودی (عکس، ویدیو، متن) را به هر چیز دیگری تبدیل کنند. اما فعلاً فقط ویدیو تولید میکند. Omni Flash اولین مدلی است که گوگل منتشر کرده و اکنون در پلتفرم ساخت و ویرایش ویدیوی هوش مصنوعی این شرکت یعنی Flow در دسترس است. هنوز میتوانید از مدل قبلی یعنی Veo استفاده کنید، اما Omni از چند جهت بر پایه Veo بهبود پیدا کرده است.
با Omni میتوانید یک ویدیو آپلود کنید و آن را همراه با یک پرامپت متنی به عنوان نقطه شروع خروجی هوش مصنوعی استفاده نمایید. گوگل ادعا میکند که Omni هنگام تولید ویدیو، دانش بیشتر و واقعگرایانهتری از دنیای واقعی را دخیل میکند و در نتیجه، خیلی بهتر میتواند ظاهر و هویت کاراکترها را در طول ویدیو ثابت نگه دارد. فقط یک راه برای آزمودن این ادعا وجود داشت و آن هم آزمایش عملی این مدل بود.
نتیجهها آنقدر ترکیبی و متناقض بود که آدم را گیج میکند. بعضی کلیپها واقعاً خوب بودند؛ بسیار منسجمتر و وفادارتر به پرامپت نسبت به زمانی که پنج ماه پیش Veo را تست میکردیم. اما حتی بهترین کلیپهایی که Omni برای ما ساخت هم لحظات «جامپاسکیر» هوش مصنوعی داشتند.
با Omni میتوانید با پرامپت متنی ویدیوها را ادیت کنید و انصافاً باید به گوگل اعتبار داد: این بخش نسبت به زمانی که مدل Veo 3 را تست کردیم، بهتر عمل میکند. اما نتایج با Veo آنقدر بد بود که راحتتر بود هر بار به جای ویرایش، از صفر ویدیوی جدید بسازیم. Omni واقعاً ویرایشهای شما را اعمال میکند، اما همیشه هم نتیجه درست از آب درنمیآید.
ناگفته نماند که هیچکدام از این مدلها رایگان نیستند. ساخت ویدیو با Omni اعتباری است؛ بسته به طول سکانس و موادی که به مدل میدهید، هر کلیپ بین ۱۵ تا ۴۰ اعتبار هزینه دارد. یک دور ویرایش هم ۴۰ اعتبار میسوزاند. طرح AI Pro با قیمت ماهانه ۲۰ دلار این مدل هر ماه ۱۰۰۰ اعتبار میدهد. بعد از حدود ۲۰ کلیپ، با چند ویرایش روی بعضی از آنها، فقط ۱۴۵ اعتبار برای شما میماند. اگر ذهنیت مشخصی از ویدیوی نهایی داشته باشید، احتمالاً برای نزدیک شدن به تصویر دلخواه خود باید چندین رفتوبرگشت گران با مدل داشته باشید.
یکی از نقاط قوت ادعایی مدل Gemini Omni اضافه کردن عناصر هوش مصنوعی به ویدیوهای واقعی است یا به عبارت دیگر دیپفیک است. با یک ویدیوی سلفی و صورت خنثی شروع کردیم و از Omni خواستیم کلیپهایی بسازد و واقعاً برای چیزی که دیدیم آماده نبودیم.
در این دیپفیکها نشانههایی از هوش مصنوعی وجود دارد. برای مثال صداهای برخورد اشیا بیش از حد مصنوعی است یا فردی در پسزمینه وجود دارد که دوبار ظاهر میشود. اما به جز این اشکالات کوچک و حس کمی ناخوشایند، ویدیوها به طرز ترسناکی باورپذیر هستند.
کلیپ پاستا را به همسرم نشان دادم؛ میدانست دارم یک ابزار ویدیوی هوش مصنوعی را تست میکنم اما نگفتم کدام بخش صحنه مصنوعی است. بدون اینکه بداند چه چیزی در صحنه با هوش مصنوعی ساخته شده است، پذیرفت که من جلوی دوربین نشستهام و پاستا میخورم و تنها موضوع غیرعادی برای او این بود که ظرف غذا برایش ناآشنا به نظر میرسید. خود عمل پاستا خوردن آنقدر واقعی بود که او را — کسی که تقریباً هر روز در ده سال گذشته از نزدیک مرا دیده است — قانع کند.
دیپفیکهای دیگر نیز در سطحهای مختلفی از «کافی برای فریب مردم در شبکههای اجتماعی» هستند. مثلا بعضی از کلیپهای برج ایفل کمی کارتونی به نظر میرسند، اما یکی از کلیپها آنقدر قانعکننده است که اگر چند بار نگاه نکنید شاید متوجه مصنوعی بودن آن نشوید.
بر اساس گزارش ورج، هنوز ساخت یک شاهکار سینمایی با هوش مصنوعی آنقدر که گوگل دوست دارد وانمود کند، آسان نشده است. اما مدل Gemini Omni به شکل قابل تشخیصی نسبت به Veo بهتر شده است. اگر یک حساب گوگل و یک کارت اعتباری داشته باشید، میتوانید با کمترین تلاش از یک ویدیوی خانگی ساده، کلیپی بسازید که انگار وسط یک پرواز به مائوی نشستهاید.

















