محققان دانشگاه Tsinghua و Zhipu AI مدل متن به ویدئوی متنباز جدیدی به نام CogVideoX را معرفی کردهاند که تهدیدی برای سلطه شرکتهای نوپایی مانند Runway، Luma AI و Pika Labs در این حوزه است.
به گزارش سرویس هوش مصنوعی تکناک و به نقل از VB این مدل، که در مقالهای اخیر در arXiv توضیح داده شده است، تواناییهای پیشرفته تولید ویدئو را در اختیار توسعهدهندگان در سراسر جهان قرار میدهد.
CogVideoX از طریق پرامپتهای متنی، ویدئوهای با کیفیت بالا و سازگار تا شش ثانیه تولید میکند. به گفته محققان، این مدل در چندین معیار، عملکردی بهتر از رقبای شناخته شدهای مانند VideoCrafter-2.0 و OpenSora دارد.
نگین این پروژه، CogVideoX-5B است که دارای 5 میلیارد پارامتر بوده و ویدئوهایی با وضوح 480×720 و با نرخ 8 فریم در ثانیه تولید میکند. در حالی که این مشخصات ممکن است با سیستمهای اختصاصی پیشرفته تطابق نداشته باشد، ویژگی متنباز بودن CogVideoX نوآوری اصلی آن محسوب میشود.
فهرست مطالب
چگونه مدلهای متنباز در حال هموارسازی رقابت هستند
با انتشار کد و وزنهای مدل به صورت عمومی، تیم Tsinghua به طور موثری تکنولوژیای را که قبلاً در اختیار شرکتهای فناوری بزرگ بود، دموکراتیک کرده است. این اقدام میتواند با استفاده از قدرت جمعی جامعه توسعهدهندگان جهانی، پیشرفت در تولید ویدئوی هوش مصنوعی را تسریع کند.
محققان با استفاده از چندین نوآوری فنی به عملکرد چشمگیر CogVideoX دست یافتهاند. آنها از یک 3D Variational Autoencoder (VAE) برای فشردهسازی کارآمد ویدئوها استفاده کرده و یک “expert transformer” را برای بهبود همترازی متن و ویدئو توسعه دادهاند.
در این مقاله آمده است:
“برای بهبود همترازی بین ویدئوها و متون، ما یک expert Transformer با expert adaptive LayerNorm پیشنهاد میدهیم تا ادغام بین این دو حالت را تسهیل کنیم.” این پیشرفت به تفسیر دقیقتر پرامپتهای متنی و تولید ویدئوی دقیقتر کمک میکند.
انتشار CogVideoX نشاندهنده یک تغییر مهم در چشمانداز هوش مصنوعی است. اکنون شرکتهای کوچکتر و توسعهدهندگان فردی به قابلیتهایی دسترسی دارند که قبلاً به دلیل محدودیتهای منابع، خارج از دسترس بود. این هموارسازی رقابت میتواند موجی از نوآوری در صنایع مختلف از تبلیغات و سرگرمی گرفته تا آموزش و مصورسازی علمی را ایجاد کند.
شمشیر دو لبه: تعادل میان نوآوری و نگرانیهای اخلاقی در تولید ویدئوی هوش مصنوعی
با این حال، در دسترس بودن گسترده چنین تکنولوژی قدرتمندی بدون خطر نیست. پتانسیل استفاده نادرست از این تکنولوژی در ایجاد deepfake یا محتوای گمراهکننده یک نگرانی واقعی است که جامعه هوش مصنوعی باید به آن توجه کند. محققان به این پیامدهای اخلاقی اذعان داشته و خواستار استفاده مسئولانه از این تکنولوژی هستند.
همانطور که ویدئوی تولید شده توسط هوش مصنوعی قابل دسترستر و پیچیدهتر میشود، ما وارد قلمروی ناشناختهای در حوزه خلق محتوای دیجیتال میشویم. انتشار CogVideoX ممکن است یک نقطه عطف باشد که تعادل قدرت را از دست بازیگران بزرگتر در این زمینه به سمت یک مدل توسعه متنباز و توزیعشده هوش مصنوعی تغییر دهد.
تأثیر واقعی این دموکراتیزهسازی هنوز مشخص نیست. آیا این روند یک عصر جدید از خلاقیت و نوآوری را رقم خواهد زد یا چالشهای موجود پیرامون اطلاعات نادرست و دستکاری دیجیتال را تشدید خواهد کرد؟ با ادامه تکامل این تکنولوژی، سیاستگذاران و اخلاقشناسان باید با جامعه هوش مصنوعی همکاری نزدیکی داشته باشند تا دستورالعملهایی برای توسعه و استفاده مسئولانه ایجاد کنند.
آنچه مسلم است این است که با انتشار CogVideoX، آینده ویدئوی تولید شده توسط هوش مصنوعی دیگر محدود به آزمایشگاههای Silicon Valley نیست. این تکنولوژی اکنون در دستان توسعهدهندگان در سراسر جهان قرار دارد، چه خوب و چه بد.