تیمی از مهندسان یادگیری ماشین از شرکت متا از سیستم جدیدی به نام Make-A-Video رونمایی کردند که به کاربران اجازه میدهد تا توصیف تقریبی از یک صحنه را تایپ کنند و ویدیوی کوتاهی مطابق با متن آنها تولید میکند.
به گزارش تک ناک، ویدیوها به صورت انیمیشن مصنوعی، تار و تحریف شده هستند، اما هنوز هم نشان دهنده پیشرفت قابل توجهی در زمینه تولید محتوای هوش مصنوعی خواهند بود.
متا در یک پست وبلاگی که این کار را اعلام کرد، گفت: تحقیقات مولد هوش مصنوعی با ارائه ابزارهایی به افراد برای ایجاد سریع و آسان محتوای جدید، بیان خلاقانه را به جلو میبرد. تنها با چند کلمه یا خط متن، Make-A-Video می تواند تخیل را زنده کند و ویدیوهای منحصر به فردی را پر از رنگ ها و مناظر زنده بسازد.
مارک زاکربرگ، مدیرعامل متا در یک پست فیسبوک، این کار را «پیشرفت شگفتانگیز» توصیف کرد و افزود: تولید ویدیو بسیار سختتر از عکسها است، زیرا فراتر از تولید صحیح هر پیکسل، سیستم همچنین باید پیشبینی کند که چگونه در طول زمان این پیکسل ها باید تغییر کنند.
کلیپ ها بیشتر از پنج ثانیه نیستند و صدا ندارند اما طیف وسیعی از حرکت ها را در بر می گیرند. بهترین راه برای قضاوت در مورد عملکرد این مدل، تماشای خروجی آن است. هر یک از ویدیوهای زیر توسط Make-A-Video تولید شده است و با دستوری که برای تولید ویدیو استفاده شده است، شرح داده شده است.
با این حال، شایان ذکر است که ویدیو های زیر توسط متا در اختیار The Verge قرار گرفته است، که در حال حاضر به هیچکس اجازه دسترسی به مدل را نمی دهد. این بدان معناست که این کلیپها ممکن است برای نشان دادن سیستم در بهترین حالت انتخاب شده اند.
باز هم، در حالی که واضح است که این ویدیوها توسط رایانه تولید می شوند، خروجی چنین مدل های هوش مصنوعی در آینده نزدیک به سرعت بهبود می یابد. به عنوان مقایسه، تنها در عرض چند سال، تولیدکنندگان تصویر هوش مصنوعی از ایجاد تصاویر نامفهوم مرزی به محتوای واقعی فوتورالیستی تبدیل شدهاند. اگرچه با توجه به پیچیدگی تقریباً بی حد و حصر موضوع، پیشرفت در ویدیو می تواند کندتر باشد، اما ارزش بالای تولید یکپارچه ویدیو باعث انگیزه بسیاری از مؤسسات و شرکت ها می شود تا منابع مالی بزرگی را در پروژه سرمایه گذاری کنند.
در پست وبلاگ متا که Make-a-Video را اعلام می کند، این شرکت خاطرنشان می کند که ابزارهای تولید ویدیو می توانند «برای سازندگان و هنرمندان» ارزشمند باشند. اما، مانند مدل های متن به تصویر، چشم اندازهای نگران کننده ای نیز وجود دارد. خروجی این ابزارها میتواند برای اطلاعات نادرست، تبلیغات، و – به احتمال زیاد، بر اساس آنچه در سیستمهای تصویری هوش مصنوعی و دیپفیکها دیدهایم – برای تولید هرزهنگاری غیرتوافقی که میتواند برای آزار و اذیت و ارعاب زنان استفاده شود، استفاده شود.
متا میگوید که در مورد چگونگی ساخت سیستمهای هوش مصنوعی جدید مانند این فکر میکند و در حال حاضر فقط مقالهای در مورد مدل Make-A-Video منتشر میکند. این شرکت میگوید که قصد دارد نسخهای از این سیستم را منتشر کند، اما نمیگوید چه زمانی و چگونه دسترسی به این مدل ممکن است محدود شود.
همچنین شایان ذکر است که متا تنها شرکتی نیست که روی تولیدکنندههای ویدیوی هوش مصنوعی کار میکند. به عنوان مثال، در اوایل سال جاری، گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI) مدل متن به ویدیوی خود را با نام CogVideo (تنها مدل دیگر متن به ویدیو در دسترس عموم) منتشر کردند. میتوانید خروجی نمونه از CogVideo را در اینجا تماشا کنید، که تقریباً مانند کار متا محدود است.
در مقالهای که این مدل را توصیف میکند، محققان متا خاطرنشان میکنند که Make-A-Video در حال آموزش روی جفت تصاویر و زیرنویسها و همچنین فیلمهای ویدیویی بدون برچسب است. محتوای آموزشی از دو مجموعه داده (WebVid-10M و HD-VILA-100M) که مجموعاً حاوی میلیونها ویدیو هستند که صدها هزار ساعت فیلم را پوشش میدهند، تهیه شده است. این شامل فیلم های ویدئویی است که توسط سایت هایی مانند Shutterstock ایجاد شده و از وب جمع آوری شده است.
محققان در این مقاله خاطرنشان میکنند که این مدل محدودیتهای فنی زیادی فراتر از فیلمهای مبهم و انیمیشنهای ناهمگون دارد. برای مثال، روشهای آموزشی آنها قادر به یادگیری اطلاعاتی نیستند که ممکن است فقط توسط یک انسان در حال تماشای یک ویدیو استنباط شود . از دیگر مشکلات می توان به تولید ویدیوهای طولانی تر از پنج ثانیه، ویدیوهایی با صحنه ها و رویدادهای متعدد و وضوح بالاتر اشاره کرد. مدل Make-A-Video در حال حاضر 16 فریم ویدئو با وضوح 64 در 64 پیکسل را تولید می کند که سپس با استفاده از یک مدل هوش مصنوعی جداگانه اندازه آنها به 768 در 768 افزایش می دهد.
تیم متا همچنین خاطرنشان میکند مدل Make-A-Video مانند تمام مدلهای هوش مصنوعی آموزشدیده از روی دادههای جمعآوریشده از وب، شامل سوگیریهای اجتماعی و موارد آزار دهنده نیز می شود. در مدل های متن به تصویر، این سوگیری ها اغلب تعصبات اجتماعی را تقویت می کنند. برای مثال، از یک مدل بخواهید تصویری از یک «تروریست» ایجاد کند، و احتمالاً فردی را با عمامه به تصویر میکشد. با این حال، نمی توان گفت که مدل متا چه سوگیری هایی را بدون دسترسی آزاد آموخته است.
متا میگوید این تحقیقات و نتایج مولد هوش مصنوعی را با کاربران به اشتراک میگذارد تا از بازخورد آنها استفاده کنند و با استفاده از چارچوب هوش مصنوعی به صورت مسئولانه توسط کاربران برای اصلاح و تکامل رویکرد کاربران به این فناوری در حال ظهور ادامه خواهد داد.