با ابزار جدید Stability AI متن را به صدا تبدیل کنید

شرکت بریتانیایی هوش مصنوعی Stability AI محصول جدیدی به نام Stable Audio Open رونمایی کرد. این ابزار می‌تواند به هنرمندان و موسیقی‌دانان ابزاری قدرتمند برای خلق آثار نوآورانه ارائه دهد.

به‌گزارش تک‌ناک، Stability AI، استارتاپی که با هوش مصنوعی مولد هنری Stable Diffusion شناخته می‌شود، مدل هوش مصنوعی رایگان متن به صدای Stable Audio Open را منتشر کرد. این مدل با استفاده از توضیحات متنی، صداهایی حداکثر به طول ۴۷ ثانیه تولید می‌کند.

تک‌کرانچ می‌گوید که برای مثال، کاربر می‌تواند بنویسد: «ریتم راک نواخته‌شده در استودیو حرفه‌ای با درامزِ روی کیت آکوستیک». Stable Audio Open با استفاده از این متن، صدای کوتاه خواسته‌شده را می‌سازد.

مدل هوش مصنوعی Stable Audio Open با استفاده از حدود ۴۸۶ هزار نمونه از آرشیوهای موسیقی رایگان FreeSound و Free Music Archive آموزش داده شده است. به‌گفته‌ی Stability AI، خروجی این مدل می‌تواند شامل ریتم درام، قطعات ساز، صداهای محیطی و اجزای تولید برای ویدئوها، فیلم‌ها و برنامه‌های تلویزیونی باشد. همچنین، این مدل هوش مصنوعی قابلیت ویرایش آهنگ‌های موجود یا اعمال سبک یک آهنگ (مثلاً جاز ملایم) به آهنگ دیگر را دارد.

مهم‌ترین مزیت مدل متن به صدای رایگان Stable Audio Open، قابلیت هماهنگ‌سازی دقیق آن با داده‌های صوتی شخصی کاربر است. Stability AI در وبلاگ خود نوشته است: «برای مثال، درامر می‌تواند با تنظیم دقیق روی نمونه‌های ضبط‌شده‌ی درام خودش، ریتم‌های جدیدی بسازد.»

با‌این‌حال، Stable Audio Open محدودیت‌هایی هم دارد. به‌عنوان نمونه، این مدل نمی‌تواند آهنگ‌های کامل و ملودی یا صدای خواننده را با کیفیت مناسب تولید کند. Stability AI می‌گوید مدل مذکور برای این کارها بهینه‌سازی نشده است و به کاربرانی که به چنین قابلیت‌هایی نیاز دارند، استفاده از سرویس پولی Stable Audio Open را پیشنهاد می‌کند.

از دیگر محدودیت‌های هوش مصنوعی Stable Audio Open این است که استفاده تجاری از آن ممنوع است و شرایط خدماتش این کار را منع می‌کند. همچنین، عملکرد آن در سبک‌ها و فرهنگ‌های مختلف موسیقی یا با توضیحات به زبان‌هایی غیر از انگلیسی یکسان نیست. به‌گفته‌ی Stability AI، این سوگیری‌ها به‌دلیل داده‌های آموزشی است.

Stability AI که مدت‌ها برای احیای کسب‌وکار رو‌به‌افول خود تلاش می‌کرد، اخیراً به موضوع اصلی بحث‌های هوش مصنوعی تبدیل شده است. این اتفاق پس از استعفای اِد نیوتن‌رکس، معاون بخش صدای تولیدی این شرکت، به‌دلیل اختلاف‌نظر با موضع شرکت درباره‌ی استفاده‌ی منصفانه از آثار دارای حق تکثیر برای آموزش مدل‌های هوش مصنوعی تولیدکننده صدا رخ داد.

به‌نظر می‌رسد انتشار Stable Audio Open تلاشی برای تغییر این روایت و در‌عین‌حال تبلیغ غیرمستقیم محصولات پولی Stability AI باشد. با محبوبیت یافتن مدل‌های هوش مصنوعی مولد موسیقی، از‌جمله محصول Stability AI، حق تکثیر و نحوه‌ی سوءاستفاده احتمالی برخی از سازندگان این تولیدکننده‌ها از آن، به موضوعی محوری تبدیل می‌شود.

می ۲۰۲۴، سونی موزیک، نماینده‌ی هنرمندان سرشناسی مانند بیلی جول و دوجا کت و لیل ناس ایکس‌، نامه‌ای به ۷۰۰ شرکت هوش مصنوعی درباره‌ی «استفاده‌ی غیرمجاز» از محتوای خود ارسال کرد. ماه آوریل نیز، اولین قانون ایالات متحده با هدف مهار سوءاستفاده از هوش مصنوعی در موسیقی در ایالت تنسی تصویب شد.