علیبابا هوش مصنوعی جدید AtomoVideo را رونمایی کرده که وظیفه آن تبدیل تصویر به ویدئو است و درمقایسهبا مدلهای Gen-2 و Pika 1.0 نتایج بهتری ارائه میدهد.
بهگزارش تکناک، تیم تحقیقاتی علیبابا هوش مصنوعی تصویر به ویدئو AtomoVideo را معرفی کرد. علاوهبراین، شرکت یادشده مقالات تحقیقاتی و نمونههایی از قابلیت تبدیل تصویر به ویدئو از Runway’s Gen-2 و Pika 1.0 را بهاشتراک گذاشت.
بهنقل از گیزموچاینا، اگرچه AtomoVideo محصولی نسل اول است و نمونههای ارائهشده آن امیدوارکننده بهنظر میرسند، همچنان تا رسیدن به سطح واقعگرایی فاصله دارند.
مقایسه شگفتانگیز این مدل با Runway’s Gen-2 نشان میدهد که این مدل جدید در کاهش برخی از گذارهای عجیبوغریب بین فریمها عملکرد بهتری دارد.
برای مثال، در نمونه مقایسهای فضانوردی در فضا، درحالیکه او در حال حرکت بود، پوشش شیشهای یا کلاه ایمنی در نمونه Gen-2 ناپدید میشد. درحالیکه AtomoVideo حرکت را نسبتاً سادهتر نگه داشته بود، چنین نتیجهای را تولید نکرد. در نمونه مقایسهای دیگر، Gen-2 افرادی را در حال اسکی روی برف بهتصویر میکشید که ناپدید میشدند؛ اما Pika 1.0 حرکتی عجیب روی شیب نشان میداد که با قوانین فیزیک تعریفشدنی نیست.
AtomoVideo بازهم آن را نسبتاً ساده نگه داشت؛ اما توانست از چنین اشتباهاتی اجتناب کند. بااینحال، بهاحتمال زیاد این نمونههای مقایسهای از نمونههای ازپیشانتخابشده بهجای نمونههای تولیدشده بهصورت تصادفی هستند.
ویژگیهای مهم AtomoVideo علیبابا
برتریهای AtomoVideo شامل توانایی حفظ دقت زیاد دربرابر تصویر ورودی و اطمینان از انتقال روان حرکت و پشتیبانی از پیشبینی فریمهای بعدی ویدئو است. همچنین، این چهارچوب با مدلهای مختلف T2I (متن به تصویر) موجود سازگاری دارد و کنترلپذیری معنایی درخورتوجهی ارائه میدهد. AtomoVideo به کاربران امکان میدهد تا محتوای ویدئویی را مطابق با ترجیحات خاص خود سفارشیسازی کنند.
AtomoVideo با استفاده از مدلهای پیشفرض T2I بهعنوان پایهواساس و تقویت آنها با مدلهای فضاییزمانی یکبعدی و ماژولهای توجه، عملکرد رضایتبخشی بهدست میآورد. این لایههای اضافی به چهارچوب کمک میکنند تا جزئیات و سبکهای پیچیده را درعین اطمینان از ثبات زمانی در طول کل ویدئوهای تولیدشده ثبت کند.
با ادغام معنای پیشرفته تصویر ازطریق مکانیزمهای Cross-Attention، مدل AtomoVideo توانایی خود را در تولید ویدئوهایی با کنترل دقیق معنایی بیشتر میکند. با وجود قابلیتهای چشمگیر AtomoVideo، تیم تحقیقاتی هنوز پلتفرمی آنلاین برای کاربران فراهم نکرده است که بتوانند این فناوری را بهصورت مستقیم تجربه کنند. باوجوداین، چهارچوب AtomoVideo علیبابا پیشرفتی درخورتوجه درزمینه سنتز تصویر به ویدئو محسوب میشود.