معرفی مدل Stable Audio Open Small با قابلیت اجرا روی گوشی‌های هوشمند

استارتاپ Stability AI مدل Stable Audio Open Small را معرفی کرده است که می‌تواند صدای استریو با قابلیت اجرا روی گوشی هوشمند تولید کند.

به گزارش تک‌ناک، استارتاپ هوش مصنوعی Stability AI از مدل جدید تولید صدا با نام Stable Audio Open Small پرده‌برداری کرده است. به گفته شرکت، این مدل استریو و بسیار سبک سریع‌ترین مدل صوتی موجود در بازار است و به‌اندازه‌ای بهینه شده که می‌توان آن را به‌صورت محلی روی گوشی‌های هوشمند اجرا کرد.

مدل Stable Audio Open Small نتیجه همکاری Stability با شرکت ARM، تولیدکننده مشهور پردازنده‌های موبایلی است و درحالی منتشر می‌شود که بیشتر مدل‌های مشابه ازجمله Suno و Udio برای تولید صدا به پردازش ابری متکی هستند و قابلیت استفاده در حالت آفلاین را ندارند. مدل صوتی جدید Stability این محدودیت را پشت‌سر گذاشته است و با امکان اجرا روی پردازنده‌های آرم، تولید افکت‌ها و نمونه‌های صوتی کوتاه را در کمتر از ۸ ثانیه برای کاربر فراهم می‌کند.

مدل Stable Audio Open Small استبیلیتی AI

براساس اعلام Stability، مجموعه داده‌ آموزشی این مدل صرفاً شامل قطعات موسیقی آرشیو Free Music Archive و پایگاه Freesound بوده و هیچ‌یک از محتواهای دارای حق نشر در آن به‌ کار نرفته است. این موضوع مدل‌هایی همچون Suno و Udio را در معرض خطر نقض مالکیت فکری قرار داده است.

به نقل از تک‌کرانچ، مدل Stable Audio Open Small با داشتن ۳۴۱ میلیون پارامتر، برای تولید سریع افکت‌های صوتی مانند ریف درام و ساز طراحی شده است و می‌تواند تا ۱۱ ثانیه صدا تولید کند. بااین‌حال، این مدل محدودیت‌هایی نیز دارد؛ ازجمله اینکه فقط از دستورهای متنی انگلیسی پشتیبانی می‌کند و نمی‌تواند صدای خواننده یا آهنگ‌های کامل و باکیفیت را تولید کند و عملکرد یکسانی در سبک‌های موسیقی مختلف ندارد. Stability دلیل این موضوع را وابستگی داده‌های آموزشی مدل به موسیقی‌های غربی عنوان کرده است.

در بخش شرایط استفاده نیز، محدودیت‌هایی برای توسعه‌دهندگان وجود دارد. استفاده از این مدل برای پژوهشگران و علاقه‌مندان و کسب‌وکارهایی با درآمد سالانه کمتر از یک میلیون دلار رایگان است؛ اما شرکت‌هایی با درآمد بیشتر به دریافت مجوز سازمانی از Stability ملزم هستند.

Stability AI که پیش‌تر با مدل Stable Diffusion به شهرت رسید، پس‌از تجربه بحران مدیریتی ناشی از عملکرد نامطلوب مدیرعامل سابق خود، با جذب سرمایه‌ جدید و ورود چهره‌هایی همچون جیمز کامرون، کارگردان فیلم تایتانیک، به هیئت‌مدیره، مسیر بازسازی را در پیش گرفته و در ماه‌های اخیر چندین مدل جدید تصویرسازی نیز منتشر کرده است. این اقدام گامی مهم برای گسترش حوزه فعالیت شرکت به تولید صوت مبتنی‌بر هوش مصنوعی و افزایش سهم آن در بازار ابزارهای خلاقانه مبتنی‌بر یادگیری ماشین به‌ شمار می‌رود.