هوش مصنوعی متا مدل جدیدی برای تولید ویدئو از متن عرضه کرد

تیمی از مهندسان یادگیری ماشین از شرکت متا از سیستم جدیدی به نام Make-A-Video رونمایی کردند که به کاربران اجازه می‌دهد تا توصیف تقریبی از یک صحنه را تایپ کنند و ویدیوی کوتاهی مطابق با متن آن‌ها تولید می‌کند. این ویدیوها به صورت انیمیشن مصنوعی، تار و تحریف‌شده هستند، اما نشان‌دهنده پیشرفت قابل توجهی در زمینه تولید محتوای هوش مصنوعی هستند. سیستم قادر به تولید ویدیوهایی با حرکت‌های متنوع است که بیشتر از پنج ثانیه طول نمی‌کشد و فاقد صدا هستند. این ابزار می‌تواند برای سازندگان و هنرمندان مفید باشد، اما نگرانی‌هایی در خصوص استفاده نادرست آن، مانند تولید اطلاعات نادرست یا هرزه‌نگاری، وجود دارد. متا قصد دارد نسخه‌ای از این سیستم را منتشر کند، اما هنوز تاریخ دقیق آن مشخص نیست. این مدل در حال حاضر محدودیت‌هایی دارد، از جمله تولید ویدیوهای طولانی‌تر و صحنه‌های پیچیده‌تر. همچنین، این مدل تحت تأثیر سوگیری‌های اجتماعی است که ممکن است از داده‌های جمع‌آوری‌شده از وب ناشی شود.

به گزارش تک ناک، ویدیوها به صورت انیمیشن مصنوعی، تار و تحریف شده هستند، اما هنوز هم نشان دهنده پیشرفت قابل توجهی در زمینه تولید محتوای هوش مصنوعی خواهند بود.

متا در یک پست وبلاگی که این کار را اعلام کرد، گفت: تحقیقات مولد هوش مصنوعی با ارائه ابزارهایی به افراد برای ایجاد سریع و آسان محتوای جدید، بیان خلاقانه را به جلو می‌برد. تنها با چند کلمه یا خط متن، Make-A-Video می تواند تخیل را زنده کند و ویدیوهای منحصر به فردی را پر از رنگ ها و مناظر زنده بسازد.

مارک زاکربرگ، مدیرعامل متا در یک پست فیسبوک، این کار را «پیشرفت شگفت‌انگیز» توصیف کرد و افزود: تولید ویدیو بسیار سخت‌تر از عکس‌ها است، زیرا فراتر از تولید صحیح هر پیکسل، سیستم همچنین باید پیش‌بینی کند که چگونه در طول زمان این پیکسل ها باید تغییر کنند.

کلیپ ها بیشتر از پنج ثانیه نیستند و صدا ندارند اما طیف وسیعی از حرکت ها را در بر می گیرند. بهترین راه برای قضاوت در مورد عملکرد این مدل، تماشای خروجی آن است. هر یک از ویدیوهای زیر توسط Make-A-Video تولید شده است و با دستوری که برای تولید ویدیو استفاده شده است، شرح داده شده است.
با این حال، شایان ذکر است که ویدیو های زیر توسط متا در اختیار The Verge قرار گرفته است، که در حال حاضر به هیچکس اجازه دسترسی به مدل را نمی دهد. این بدان معناست که این کلیپ‌ها ممکن است برای نشان دادن سیستم در بهترین حالت انتخاب شده اند.

باز هم، در حالی که واضح است که این ویدیوها توسط رایانه تولید می شوند، خروجی چنین مدل های هوش مصنوعی در آینده نزدیک به سرعت بهبود می یابد. به عنوان مقایسه، تنها در عرض چند سال، تولیدکنندگان تصویر هوش مصنوعی از ایجاد تصاویر نامفهوم مرزی به محتوای واقعی فوتورالیستی تبدیل شده‌اند. اگرچه با توجه به پیچیدگی تقریباً بی حد و حصر موضوع، پیشرفت در ویدیو می تواند کندتر باشد، اما ارزش بالای تولید یکپارچه ویدیو باعث انگیزه بسیاری از مؤسسات و شرکت ها می شود تا منابع مالی بزرگی را در پروژه سرمایه گذاری کنند.

در پست وبلاگ متا که Make-a-Video را اعلام می کند، این شرکت خاطرنشان می کند که ابزارهای تولید ویدیو می توانند «برای سازندگان و هنرمندان» ارزشمند باشند. اما، مانند مدل های متن به تصویر، چشم اندازهای نگران کننده ای نیز وجود دارد. خروجی این ابزارها می‌تواند برای اطلاعات نادرست، تبلیغات، و – به احتمال زیاد، بر اساس آنچه در سیستم‌های تصویری هوش مصنوعی و دیپ‌فیک‌ها دیده‌ایم – برای تولید هرزه‌نگاری غیرتوافقی که می‌تواند برای آزار و اذیت و ارعاب زنان استفاده شود، استفاده شود.

بیشتر بخوانید: قابلیت تنظیم طول در مرورهای صوتی به NotebookLM اضافه شد

متا می‌گوید که در مورد چگونگی ساخت سیستم‌های هوش مصنوعی جدید مانند این فکر میکند و در حال حاضر فقط مقاله‌ای در مورد مدل Make-A-Video منتشر می‌کند. این شرکت می‌گوید که قصد دارد نسخه‌ای از این سیستم را منتشر کند، اما نمی‌گوید چه زمانی و چگونه دسترسی به این مدل ممکن است محدود شود.

همچنین شایان ذکر است که متا تنها شرکتی نیست که روی تولیدکننده‌های ویدیوی هوش مصنوعی کار می‌کند. به عنوان مثال، در اوایل سال جاری، گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI) مدل متن به ویدیوی خود را با نام CogVideo (تنها مدل دیگر متن به ویدیو در دسترس عموم) منتشر کردند. می‌توانید خروجی نمونه از CogVideo را در اینجا تماشا کنید، که تقریباً مانند کار متا محدود است.

در مقاله‌ای که این مدل را توصیف می‌کند، محققان متا خاطرنشان می‌کنند که Make-A-Video در حال آموزش روی جفت تصاویر و زیرنویس‌ها و همچنین فیلم‌های ویدیویی بدون برچسب است. محتوای آموزشی از دو مجموعه داده (WebVid-10M و HD-VILA-100M) که مجموعاً حاوی میلیون‌ها ویدیو هستند که صدها هزار ساعت فیلم را پوشش می‌دهند، تهیه شده است. این شامل فیلم های ویدئویی است که توسط سایت هایی مانند Shutterstock ایجاد شده و از وب جمع آوری شده است.

محققان در این مقاله خاطرنشان می‌کنند که این مدل محدودیت‌های فنی زیادی فراتر از فیلم‌های مبهم و انیمیشن‌های ناهمگون دارد. برای مثال، روش‌های آموزشی آن‌ها قادر به یادگیری اطلاعاتی نیستند که ممکن است فقط توسط یک انسان در حال تماشای یک ویدیو استنباط شود . از دیگر مشکلات می توان به تولید ویدیوهای طولانی تر از پنج ثانیه، ویدیوهایی با صحنه ها و رویدادهای متعدد و وضوح بالاتر اشاره کرد. مدل Make-A-Video در حال حاضر 16 فریم ویدئو با وضوح 64 در 64 پیکسل را تولید می کند که سپس با استفاده از یک مدل هوش مصنوعی جداگانه اندازه آنها به 768 در 768 افزایش می دهد.
تیم متا همچنین خاطرنشان می‌کند مدل Make-A-Video مانند تمام مدل‌های هوش مصنوعی آموزش‌دیده از روی داده‌های جمع‌آوری‌شده از وب، شامل سوگیری‌های اجتماعی و موارد آزار دهنده نیز می شود. در مدل های متن به تصویر، این سوگیری ها اغلب تعصبات اجتماعی را تقویت می کنند. برای مثال، از یک مدل بخواهید تصویری از یک «تروریست» ایجاد کند، و احتمالاً فردی را با عمامه به تصویر می‌کشد. با این حال، نمی توان گفت که مدل متا چه سوگیری هایی را بدون دسترسی آزاد آموخته است.
متا می‌گوید این تحقیقات و نتایج مولد هوش مصنوعی را با کاربران به اشتراک می‌گذارد تا از بازخورد آنها استفاده کنند و با استفاده از چارچوب هوش مصنوعی به صورت مسئولانه توسط کاربران برای اصلاح و تکامل رویکرد کاربران به این فناوری در حال ظهور ادامه خواهد داد.

اگر از این مطلب لذت بردید، حتما سایر جدیدترین اخبار هوش مصنوعی را هم بررسی کنید! مطالب ما پر از اطلاعات مفید و جذاب هستند که می‌توانند به شما کمک کنند تا به راحتی با دنیای جدید آشنا شوید. همراه ما باشید و دانش خود را گسترش دهید!