استارتاپ Stability AI مدل Stable Audio Open Small را معرفی کرده است که میتواند صدای استریو با قابلیت اجرا روی گوشی هوشمند تولید کند.
به گزارش تکناک، استارتاپ هوش مصنوعی Stability AI از مدل جدید تولید صدا با نام Stable Audio Open Small پردهبرداری کرده است. به گفته شرکت، این مدل استریو و بسیار سبک سریعترین مدل صوتی موجود در بازار است و بهاندازهای بهینه شده که میتوان آن را بهصورت محلی روی گوشیهای هوشمند اجرا کرد.
مدل Stable Audio Open Small نتیجه همکاری Stability با شرکت ARM، تولیدکننده مشهور پردازندههای موبایلی است و درحالی منتشر میشود که بیشتر مدلهای مشابه ازجمله Suno و Udio برای تولید صدا به پردازش ابری متکی هستند و قابلیت استفاده در حالت آفلاین را ندارند. مدل صوتی جدید Stability این محدودیت را پشتسر گذاشته است و با امکان اجرا روی پردازندههای آرم، تولید افکتها و نمونههای صوتی کوتاه را در کمتر از ۸ ثانیه برای کاربر فراهم میکند.

براساس اعلام Stability، مجموعه داده آموزشی این مدل صرفاً شامل قطعات موسیقی آرشیو Free Music Archive و پایگاه Freesound بوده و هیچیک از محتواهای دارای حق نشر در آن به کار نرفته است. این موضوع مدلهایی همچون Suno و Udio را در معرض خطر نقض مالکیت فکری قرار داده است.
به نقل از تککرانچ، مدل Stable Audio Open Small با داشتن ۳۴۱ میلیون پارامتر، برای تولید سریع افکتهای صوتی مانند ریف درام و ساز طراحی شده است و میتواند تا ۱۱ ثانیه صدا تولید کند. بااینحال، این مدل محدودیتهایی نیز دارد؛ ازجمله اینکه فقط از دستورهای متنی انگلیسی پشتیبانی میکند و نمیتواند صدای خواننده یا آهنگهای کامل و باکیفیت را تولید کند و عملکرد یکسانی در سبکهای موسیقی مختلف ندارد. Stability دلیل این موضوع را وابستگی دادههای آموزشی مدل به موسیقیهای غربی عنوان کرده است.
در بخش شرایط استفاده نیز، محدودیتهایی برای توسعهدهندگان وجود دارد. استفاده از این مدل برای پژوهشگران و علاقهمندان و کسبوکارهایی با درآمد سالانه کمتر از یک میلیون دلار رایگان است؛ اما شرکتهایی با درآمد بیشتر به دریافت مجوز سازمانی از Stability ملزم هستند.
Stability AI که پیشتر با مدل Stable Diffusion به شهرت رسید، پساز تجربه بحران مدیریتی ناشی از عملکرد نامطلوب مدیرعامل سابق خود، با جذب سرمایه جدید و ورود چهرههایی همچون جیمز کامرون، کارگردان فیلم تایتانیک، به هیئتمدیره، مسیر بازسازی را در پیش گرفته و در ماههای اخیر چندین مدل جدید تصویرسازی نیز منتشر کرده است. این اقدام گامی مهم برای گسترش حوزه فعالیت شرکت به تولید صوت مبتنیبر هوش مصنوعی و افزایش سهم آن در بازار ابزارهای خلاقانه مبتنیبر یادگیری ماشین به شمار میرود.