هوش مصنوعی Stability با معرفی قابلیت Stable Video Diffusion بهدنبال تولید ویدئو است. این قابلیت درحالحاضر در دست آزمایش است.
بهگزارش تکناک، هوش مصنوعی Stability بهتازگی قابلیت Stable Video Diffusion را معرفی کرده است. این مدلی از هوش مصنوعی است که با متحرکسازی تصاویر موجود، ویدئو تولید میکند. Stable Video Diffusion یکی از معدود مدلهای تولیدکننده ویدئوست که بهصورت متن باز یا تجاری دردسترس قرار دارد.
درحالحاضر، Stable Video Diffusion همان چیزی است که Stability بهعنوان نسخهی پیشنمایش آزمایشی توصیف میکند. کسانی که به اجرای این مدل علاقهمندند، باید با برخی شرایط خاص استفاده موافقت کنند که برنامههای مدنظر Stable Video Diffusion (مثلاً ابزارهای آموزشی یا خلاقانه، طراحی و سایر فرایندهای هنری و…) و اتفاقات غیرمنتظره (همچون بازنمایی واقعی از افراد یا رویدادها) را شامل میشود.
Stable Video Diffusion در دو مدل ارائه میشود: SVD و SVD-XT. مدل SVD تصاویر ثابت را به ویدئوهای 1024 در 576 به 14 فریم تبدیل میکند. SVD-XT از معماری یکسانی استفاده میکند؛ اما ویدئوها را به ۲۴ فریم تبدیل میکند. هر دو مدل میتوانند ویدئوهایی بین ۳ تا 30 فریمبرثانیه تولید کنند.
SVD و SVD-XT در ابتدا روی مجموعه دادهای متشکل از میلیونها ویدئو آموزش داده و سپس روی مجموعهای بسیار کوچکتر، از صدهاهزار تا حدود یکمیلیون کلیپ بهخوبی تنظیم شدند. اینکه ویدئوها از کجا آمدهاند، مشخص نیست؛ بنابراین، نمیتوان تشخیص داد که آیا هریک از آنها کپیرایت دارند یا خیر. اگر چنین باشد، ممکن است کاربران Stability and Stable Video Diffusion به موانع قانونی و اخلاقی درزمینهی حق کپی برخورد کنند. زمان این موضوع را مشخص خواهد کرد.
منبع دادههای آموزشی هرچه باشد، مدلهای SVD و SVD-XT کلیپهای چهارثانیهای باکیفیت تولید میکنند. نمونههای انتخابشده از وبلاگ Stability میتوانند با خروجیهای مدل تولید ویدئو اخیر متا و نمونههای تولیدشدهی گوگل و استارتآپهای هوش مصنوعی Runway و Pika Labs رقابت کنند.
ناگفته نماند که Stable Video Diffusion محدودیتهایی هم دارد. Stability دربارهی این موضوع شفاف عمل کرده است و در صفحات Hugging Face مدلها نوشته است که این مدلها نمیتوانند ویدئوهای بدون حرکتآهسته یا چرخش دوربین، کنترلشده با متن، رندر متن (حداقل بهصورت خواندنی) یا چهرهها و افراد را بهدرستی تولید کنند.
با اینکه روزهای ابتدایی کار این هوش مصنوعی است، Stability خاطرنشان می کند که مدلها کاملاً توسعهپذیر هستند و میتوانند برای استفاده در کارهایی مانند ایجاد نمای 360 درجه از اشیاء سازگار شوند.
حال این سؤال مطرح میشود که Stable Video Diffusion به چه چیزی تبدیل خواهد شد؟ Stability میگوید که در حال برنامهریزی مدلهای مختلفی است که روی SVD و SVD-XT ساخته و گسترش داده میشوند. همچنین، این شرکت مشغول توسعهی ابزار تبدیل متن به ویدئو است که پیام متنی را به مدلهای وب ارائه میکند. بهنظر میرسد هدف نهایی این شرکت تجاریسازی باشد. Stability بهوضوح اشاره میکند که Stable Video Diffusion کاربردهای بیشتری در تبلیغات، آموزش، سرگرمی و فراتر از آن دارد.
آوریل۲۰۲۳، سمافور اعلام کرد که Stability دچار مشکلات مالی جدی شده است. همین مسئله باعث شده است تا جستوجوی اجرایی برای افزایش فروش آغاز شود. بهگفتهی فوربز، این شرکت بهطور مکرر پرداخت حقوق و مالیات را بهتأخیر انداخته یا بهطور کامل پرداخت نکرده است. این موضوع باعث شده است AWS شرکت Stability تهدید کند که از دسترسی این شرکت به نمونههای GPU خود جلوگیری میکند. Stability از آن نمونههای GPU شرکت AWS برای محاسبات آموزش مدلهای خود استفاده میکند.
اخیراً شرکت Stability AI با استفاده از نوت تبدیلپذیر (بدهیای که به سهام تبدیل میشود)، مبلغ 25میلیون دلار جمعآوری کرد که جمع کل آن به بیش از 125میلیون دلار رسید. بااینحال، این شرکت در رسیدن به ارزش بازار بیشتر ناکام مانده است. آخرینبار این شرکت با ارزش 1میلیارد دلار ارزشگذاری شده بود. قرار بود Stability با وجود درآمدهای اندک و خروجی زیاد، در چند ماه آینده فقط چهاربرابر آن مبلغ را جذب کند.
Stability اخیراً با جدایی اد نیوتنرکس که بیش از یک سال معاون صدا در این استارتآپ بود و نقشی اساسی در راهاندازی ابزار تولید موسیقی Stability، یعنی Stable Audio ایفا کرد، ضربهی دیگری خورد. در نامهای عمومی، نیوتنرکس گفت که او Stability را بهدلیل اختلافنظر درزمینهی حق کپیرایت و نحوهی استفاده از دادههای دارای حق کپیرایت برای آموزش مدلهای هوش مصنوعی ترک کرده است.