علی‌بابا هوش مصنوعی تبدیل تصویر به ویدئو AtomoVideo را رونمایی کرد

علی‌بابا هوش مصنوعی جدید AtomoVideo را رونمایی کرده که وظیفه آن تبدیل تصویر به ویدئو است و درمقایسه‌با مدل‌های Gen-2 و Pika 1.0 نتایج بهتری ارائه می‌دهد.

به‌گزارش تک‌ناک، تیم تحقیقاتی علی‌بابا هوش مصنوعی تصویر به ویدئو AtomoVideo را معرفی کرد. علاوه‌براین، شرکت یادشده مقالات تحقیقاتی و نمونه‌هایی از قابلیت تبدیل تصویر به ویدئو از Runway’s Gen-2 و Pika 1.0 را به‌اشتراک گذاشت.

به‌نقل از گیزموچاینا، اگرچه AtomoVideo محصولی نسل اول است و نمونه‌های ارائه‌شده آن امیدوارکننده به‌نظر می‌رسند، همچنان تا رسیدن به سطح واقع‌گرایی فاصله دارند.

مقایسه شگفت‌انگیز این مدل با Runway’s Gen-2 نشان می‌دهد که این مدل جدید در کاهش برخی از گذارهای عجیب‌و‌غریب بین فریم‌ها عملکرد بهتری دارد.

برای مثال، در نمونه‌ مقایسه‌ای فضانوردی در فضا، در‌حالی‌که او در حال حرکت بود، پوشش شیشه‌ای یا کلاه ایمنی در نمونه‌ Gen-2 ناپدید می‌شد. در‌حالی‌که AtomoVideo حرکت را نسبتاً ساده‌تر نگه داشته بود، چنین نتیجه‌ای را تولید نکرد. در نمونه‌ مقایسه‌ای دیگر، Gen-2 افرادی را در حال اسکی روی برف به‌تصویر می‌کشید که ناپدید می‌شدند؛ اما Pika 1.0 حرکتی عجیب روی شیب نشان می‌داد که با قوانین فیزیک تعریف‌شدنی نیست.

AtomoVideo بازهم آن را نسبتاً ساده نگه داشت؛ اما توانست از چنین اشتباهاتی اجتناب کند. با‌این‌حال، به‌احتمال زیاد این نمونه‌های مقایسه‌ای از نمونه‌های ازپیش‌انتخاب‌شده به‌جای نمونه‌های تولید‌شده به‌صورت تصادفی هستند.

ویژگی‌های مهم AtomoVideo علی‌بابا

برتری‌های AtomoVideo شامل توانایی حفظ دقت زیاد دربرابر تصویر ورودی و اطمینان از انتقال روان حرکت و پشتیبانی از پیش‌بینی فریم‌های بعدی ویدئو است. همچنین، این چهارچوب با مدل‌های مختلف T2I (متن به تصویر) موجود سازگاری دارد و کنترل‌پذیری معنایی درخورتوجهی ارائه می‌دهد. AtomoVideo به کاربران امکان می‌دهد تا محتوای ویدئویی را مطابق با ترجیحات خاص خود سفارشی‌سازی کنند.

AtomoVideo با استفاده از مدل‌های پیش‌فرض T2I به‌عنوان پایه‌واساس و تقویت آن‌ها با مدل‌های فضایی‌زمانی یک‌بعدی و ماژول‌های توجه، عملکرد رضایت‌بخشی به‌دست می‌آورد. این لایه‌های اضافی به چهارچوب کمک می‌کنند تا جزئیات و سبک‌های پیچیده را در‌عین‌ اطمینان از ثبات زمانی در طول کل ویدئوهای تولید‌شده ثبت کند.

با ادغام معنای پیشرفته تصویر از‌طریق مکانیزم‌های Cross-Attention، مدل AtomoVideo توانایی خود را در تولید ویدئوهایی با کنترل دقیق معنایی بیشتر می‌کند. با وجود قابلیت‌های چشمگیر AtomoVideo، تیم تحقیقاتی هنوز پلتفرمی آنلاین برای کاربران فراهم نکرده است که بتوانند این فناوری را به‌صورت مستقیم تجربه کنند. باوجوداین، چهارچوب AtomoVideo علی‌بابا پیشرفتی درخورتوجه در‌زمینه سنتز تصویر به ویدئو محسوب می‌شود.