بهروزرسانی جدید Gemini با امکان استفاده از سه تصویر مرجع، مرحله جدیدی در تولید ویدیو از روی عکس ایجاد کرده است.
به گزارش سرویس فناوری تکناک، شرکت گوگل اعلام کرد که این بهروزرسانی میتواند شیوه کار کاربران حرفهای و خلاق را در تولید محتوای تصویری تغییر دهد، چرا که به آنها کنترل دقیقتری بر سبک، شخصیت و جهانسازی میدهد.
مهمترین بخش این تحول، امکان بارگذاری سه تصویر مرجع است که نقش مواد اولیه بصری را در فرایند تولید ویدیو بازی میکنند و به مدل Veo اجازه میدهند ویدیو را دقیقتر و هماهنگتر با خواسته کاربر بسازد.
گوگل در توضیح این قابلیت اعلام کرد که کاربران میتوانند سه تصویر شامل شخصیتها، اشیا، سبکهای هنری یا حتی یک جهانسازی کامل را وارد Gemini کنند تا مدل از آنها برای شکل دادن ساختار و ظاهر ویدیو استفاده کند. این سه ورودی کمک میکنند بسیاری از چالشهای همیشگی تولید ویدیو از جمله نیاز به نوشتن پرامپتهای بسیار طولانی و تکرار توضیحات در چند مرحله از روی متن برطرف شوند. به گفته گوگل، این ویژگی باعث میشود بار ذهنی کاربر کاهش پیدا کند و او بتواند با تصاویر نمونه، فضای موردنظر را با دقت بیشتری به مدل منتقل کند.
این گزارش مینویسد، نخستین حوزهای که این قابلیت را قدرتمند میکند، حفظ ثبات شخصیت است. اگر کاربر بخواهد یک کاراکتر مشخص در چند صحنه ظاهر شود، Veo میتواند با استفاده از تصاویر بارگذاریشده، ظاهر دقیق شخصیت را حفظ کند و مانع ایجاد تفاوتهای ناخواسته شود. این کار برای تولیدکنندگان محتوا، انیمیشنسازان، طراحان ویدیوهای آموزشی و حتی برندها اهمیت زیادی دارد، چرا که ثبات چهره و لباس شخصیت در هر ویدیو یک ضرورت حرفهای به حساب میآید.
امکان انتقال سبک نیز یکی از بخشهای کلیدی این بهروزرسانی جدید Gemini است. کاربران میتوانند سبک نورپردازی، بافت، معماری یا حتی حالوهوای یک تصویر را بهطور کامل در ویدیو پیاده کنند. این سطح از کنترل برای افرادی ارزشمند است که میخواهند خروجی، استاندارد بصری ثابتی داشته باشد یا میخواهند یک زبان هنری مشخص را تکرار کنند. چنین قابلیتی میتواند در پروژههای تبلیغاتی، سینمایی و محتوای شبکههای اجتماعی کاربرد گستردهای داشته باشد.
قابلیت جهانسازی نیز به کاربران امکان میدهد اشیا و محیطها در ویدیو مطابقت دقیق با دنیایی داشته باشد که آنها ساختهاند. اگر کاربر تصاویر دنیای خیالی خود را وارد کند، مدل میتواند آن فضا را در هر صحنه بازسازی نماید. این ویژگی برای توسعهدهندگان بازی، انیماتورها و تیمهای خلاق که جهانهای مستقل طراحی میکنند، نقش مهمی ایفا خواهد کرد.
نمونه ارائهشده توسط گوگل نشان میدهد که شخصیتهای موجود در سه تصویر مرجع به صورت مستقیم وارد صحنه میشوند و رفتار آنها مطابق دستور کاربر اجرا میشود. این نمونه ثابت میکند که مدل تنها از تصاویر برای الهامگیری استفاده نمیکند، بلکه ساختار دقیق آنها را در سراسر ویدیو رعایت میکند.
این قابلیت از امروز در اپلیکیشن Gemini عرضه میشود و گوگل اعلام کرده است که طی هفته آینده به صورت کامل برای مشترکان Google AI Plus و Pro و Ultra فعال خواهد شد. همزمان نسخه اندروید و iOS اپلیکیشن نیز بهروزرسانی شده است و اکنون در منوی Tools مشخص میشود که برای تولید ویدیو از کدام مدل استفاده میشود. در این نسخه جدید، مدل Veo 3.1 به عنوان موتور تولید ویدیو مشخص شده است، که بهروزرسانی مهمی برای کاربران حرفهای و سازندگان محتوا به حساب میآید.

















