با هوش مصنوعی Stability ویدئو تولید کنید

هوش مصنوعی Stability با معرفی قابلیت Stable Video Diffusion به‌دنبال تولید ویدئو است. این قابلیت درحال‌حاضر در دست آزمایش است.

به‌گزارش تک‌ناک، هوش مصنوعی Stability به‌تازگی قابلیت Stable Video Diffusion را معرفی کرده است. این مدلی از هوش مصنوعی است که با متحرک‌سازی تصاویر موجود، ویدئو تولید می‌کند. Stable Video Diffusion یکی از معدود مدل‌های تولیدکننده ویدئوست که به‌صورت متن باز یا تجاری در‌دسترس قرار دارد.

در‌حال‌حاضر، Stable Video Diffusion همان چیزی است که Stability به‌عنوان نسخه‌ی پیش‌نمایش آزمایشی توصیف می‌کند. کسانی که به اجرای این مدل علاقه‌مندند، باید با برخی شرایط خاص استفاده موافقت کنند که برنامه‌های مدنظر Stable Video Diffusion (مثلاً ابزارهای آموزشی یا خلاقانه، طراحی و سایر فرایندهای هنری و…) و اتفاقات غیرمنتظره (‌همچون بازنمایی واقعی از افراد یا رویدادها) را شامل می‌شود.

Stable Video Diffusion در دو مدل ارائه می‌شود: SVD و SVD-XT. مدل SVD تصاویر ثابت را به ویدئوهای 1024 در 576 به 14 فریم تبدیل می‌کند. SVD-XT از معماری یکسانی استفاده می‌کند؛ اما ویدئوها را به ۲۴ فریم تبدیل می‌کند. هر دو مدل می‌توانند ویدئوهایی بین ۳ تا 30 فریم‌برثانیه تولید کنند.

SVD و SVD-XT در ابتدا روی مجموعه داده‌ای متشکل از میلیون‌ها ویدئو آموزش داده و سپس روی مجموعه‌ای بسیار کوچک‌تر، از صدها‌هزار تا حدود یک‌میلیون کلیپ به‌خوبی تنظیم شدند. اینکه ویدئوها از کجا آمده‌اند، مشخص نیست؛ بنابراین، نمی‌توان تشخیص داد که آیا هر‌یک از آن‌ها کپی‌رایت دارند یا خیر. اگر چنین باشد، ممکن است کاربران Stability and Stable Video Diffusion به موانع قانونی و اخلاقی درزمینه‌ی حق کپی برخورد کنند. زمان این موضوع را مشخص خواهد کرد.

منبع داده‌های آموزشی هرچه باشد، مدل‌های SVD و SVD-XT کلیپ‌های چهار‌ثانیه‌ای با‌کیفیت تولید می‌کنند. نمونه‌های انتخاب‌شده از وبلاگ Stability می‌توانند با خروجی‌های مدل تولید ویدئو اخیر متا و نمونه‌های تولید‌شده‌ی گوگل و استارت‌آپ‌های هوش مصنوعی Runway و Pika Labs رقابت کنند.

ناگفته نماند که Stable Video Diffusion محدودیت‌هایی هم دارد. Stability درباره‌ی این موضوع شفاف عمل کرده است و در صفحات Hugging Face مدل‌ها نوشته است که این مدل‌ها نمی‌توانند ویدئوهای بدون حرکت‌آهسته یا چرخش دوربین، کنترل‌شده با متن، رندر متن (حداقل به‌صورت خواندنی) یا چهره‌ها و افراد را به‌درستی تولید کنند.

با اینکه روزهای ابتدایی کار این هوش مصنوعی است، Stability خاطرنشان می کند که مدل‌ها کاملاً توسعه‌پذیر هستند و می‌توانند برای استفاده در کارهایی مانند ایجاد نمای 360 درجه از اشیاء سازگار شوند.

حال این سؤال مطرح می‌شود که Stable Video Diffusion به چه چیزی تبدیل خواهد شد؟ Stability می‌گوید که در حال برنامه‌ریزی مدل‌های مختلفی است که روی SVD و SVD-XT ساخته و گسترش داده می‌شوند. همچنین، این شرکت مشغول توسعه‌ی ابزار تبدیل متن به ویدئو است که پیام متنی را به مدل‌های وب ارائه می‌کند. به‌نظر می‌رسد هدف نهایی این شرکت تجاری‌سازی باشد. Stability به‌وضوح اشاره می‌کند که Stable Video Diffusion کاربردهای بیشتری در تبلیغات، آموزش، سرگرمی و فراتر از آن دارد.

آوریل۲۰۲۳، سمافور اعلام کرد که Stability دچار مشکلات مالی جدی شده است. همین مسئله باعث شده است تا جست‌وجوی اجرایی برای افزایش فروش آغاز شود. به‌گفته‌ی فوربز، این شرکت به‌طور مکرر پرداخت حقوق و مالیات را به‌تأخیر انداخته یا به‌طور کامل پرداخت نکرده است. این موضوع باعث شده است AWS شرکت Stability تهدید کند که از دسترسی این شرکت به نمونه‌های GPU خود جلوگیری می‌کند. Stability از آن نمونه‌های GPU شرکت AWS برای محاسبات آموزش مدل‌های خود استفاده می‌کند.

اخیراً شرکت Stability AI با استفاده از نوت تبدیل‌پذیر (بدهی‌ای که به سهام تبدیل می‌شود)، مبلغ 25‌میلیون دلار جمع‌آوری کرد که جمع کل آن به بیش از 125میلیون دلار رسید. بااین‌حال، این شرکت در رسیدن به ارزش بازار بیشتر ناکام مانده است. آخرین‌بار این شرکت با ارزش 1‌میلیارد دلار ارزش‌گذاری شده بود. قرار بود Stability با وجود درآمدهای اندک و خروجی زیاد،‌ در چند ماه آینده فقط چهاربرابر آن مبلغ را جذب کند.

Stability اخیراً با جدایی اد نیوتن‌رکس که بیش از یک سال معاون صدا در این استارت‌آپ بود و نقشی اساسی در راه‌اندازی ابزار تولید موسیقی Stability، یعنی Stable Audio ایفا کرد، ضربه‌ی دیگری خورد. در نامه‌ای عمومی، نیوتن‌رکس گفت که او Stability را به‌دلیل اختلاف‌نظر درزمینه‌ی حق کپی‌رایت و نحوه‌ی استفاده از داده‌های دارای حق کپی‌رایت برای آموزش مدل‌های هوش مصنوعی ترک کرده است.