هوش مصنوعی گوگل با متن موسیقی می‌سازد

یک سیستم هوش مصنوعی جدید و چشمگیر از گوگل با نام MusicLM می تواند با توجه توضیحات متنی در هر ژانری موسیقی تولید کند. اما این شرکت از ترس خطرات موجود، هیچ برنامه نزدیکی برای انتشار آن ندارد.

به گزارش تکناک، این هوش مصنوعی با نام MusicLM، مطمئناً اولین سیستم مولد موسیقی نیست و پیش از این تلاش‌های دیگری بدین منظور از جمله ایجاد موسیقی توسط هوش مصنوعی (توانایی سیستم ها برای درک، ترکیب و استنتاج اطلاعات) با استفاده از اطلاعات تصویری با ارائه Riffusion، همچنین Dance Diffusion، AudioML گوگل و Jukebox OpenAI نیز صورت گرفته است.

اما به دلیل محدودیت‌های فنی و داده‌های آموزشی محدود، هیچ‌کدام نتوانسته‌اند موسیقی‌های به‌ویژه از نظر آهنگسازی پیچیده یا با کیفیت بالا تولید کنند.MusicLM اولین مورد در برآورده کردن این فاکتورها است.

در یک مقاله دانشگاهی، با آموزش مفصل MusicLM از مجموعه داده‌ای از 280000 ساعت موسیقی به منظور یادگیری موسیقی‌های یکپارچه در توصیف به قول سازندگان موسیقی پیچیده (مثلا «آهنگ جاز با تک‌نوازی به یاد ماندنی ساکسیفون» و یک خواننده یا «تکنوی دهه 90 برلین با باس کم و ضربه قوی) این سیستم توانست موسیقی‌هایی، به‌طور قابل‌توجه شبیه به یک انسان موزیسین، البته نه لزوماً به همان میزان مبتکرانه یا از نظر موسیقی یکپارچه تولید کند.

با توجه به عدم وجود موسیقی‌دان یا نوازنده‌ در این حلقه، نمونه ها از کیفیت بالایی برخوردار بودند. MusicLM حتی هنگام وجود توضیحات تا حدودی طولانی و پیچیده، توانست تفاوت‌های ظریفی مانند ردیف‌های خاص از یک ساز، ملودی‌ها و حالات مختلف را ایجاد کند.

برای مثال، توضیحات نمونه زیر شامل « القا تجربه گم شدن در فضا » بود و این مفهوم در این موسیقی القا شد.این نمونه با توضیح “موسیقی متن اصلی یک بازی آرکید” ایجاد شده است.

قابلیت های MusicLM فراتر از تولید کلیپ های کوتاه موسیقی است. محققان گوگل توانایی این سیستم در ساخت موسیقی با توجه به ملودی‌های موجود زمزمه‌شده، آواز، سوت یا نواختن یک ساز را نشان می‌دهند. علاوه بر این، MusicLM می‌تواند چندین توصیف به ترتیب عنوان شده (مثلاً «زمان برای مراقبه»، «زمان برای بیدار شدن»، «زمان برای دویدن»، «زمان برای نشان‌دادن 100 درصد») را نوعی به یک «داستان» و روایت ملودیک چند دقیقه ای و مناسب برای موسیقی متن یک فیلم تبدیل کند.

این موسیقی از دنباله توصیفات «موسیقی الکترونیک در یک بازی ویدیویی»، «موسیقی مدیتیشن در کنار رودخانه»، «آتش»، «آتش بازی» به وجود آمده است.

همه قابلیت‌های آن محدود به این موارد نمی‌شود. همچنین می‌توان MusicLM را از طریق ترکیبی از تصاویر و توضیحات آموزش داد، یا صدایی در یک ژانر خاص توسط یک نوع ساز خاص تولید کرد. حتی امکان تنظیم سطح تجربه موسیقیدان هوش مصنوعی و همچنین ایجاد موسیقی با الهام از مکان ها، دوره ها یا الزامات (مانند موسیقی انگیزشی برای تمرین) توسط سیستم وجود دارد.

اما MusicLM بی عیب و نقص نیست و در حقیقت در حال حاضر نواقص زیادی دارد. برخی نمونه ها دارای کیفیت پایینی هستند که یکی از عواقب اجتناب ناپذیر فرآیند آموزش است. با وجود توانایی فنی MusicLM در تولید وکال، از جمله هارمونی های کرال، این موارد تا رسیدن به حد مطلوب و استاندارد راه زیادی دارند. و در برخی موارد “اشعار” نامفهوم انگلیسی با صداهای ترکیبی از ادغام چندین هنرمند ایجاد می‌کنند.

با این حال، محققان گوگل به چالش‌های اخلاقی بسیار زیاد به وجود آمده توسط سیستمی مانند MusicLM، از جمله گنجاندن مطالب دارای حق کپی‌رایت در داده‌های آموزشی برای تولید آهنگ‌ها اشاره می‌کنند. با توجه به یافته‌های یکی از آزمایشات، حدود 1درصد از موسیقی تولید شده توسط سیستم به طور مستقیم از آهنگ‌های آموزشی ، تکرار شده‌است. این آستانه‌ به اندازه‌ای بود که آنها را از انتشار MusicLM در وضعیت حاضر آن منصرف کرد.

نویسندگان همکار مقاله با تایید خطر سوء استفاده احتمالی از محتوای خلاقانه مرتبط با موارد استفاده گفتند: بررسی بیشتر آینده برای مقابله با این خطرات مرتبط با تولید موسیقی نیاز است و ما بر آن تاکید داریم.

با فرض دسترسی به MusicLM یا سیستمی مانند آن در آینده، مسائل حقوقی عمده‌ای، حتی در صورت استفاده به عنوان ابزاری برای کمک به هنرمندان مطرح خواهد شد. در حال حاضر از سیستم هوش مصنوعی ساده تر بدین منظور استفاده می‌شود. در سال 2020، شرکت ضبط Jay-Z یک کانال یوتیوب، Vocal Synthesis، را به دلیل استفاده از هوش مصنوعی برای ایجاد کاور آهنگ هایی مانند “We Didn’t Start the Fire” اثر بیلی جوئل، متهم به نقض حق کپی‌رایت کرد. پس از حذف ویدیو در ابتدا، یوتیوب آن را بازگرداند و درخواست‌های حذف را ناقص اعلام کرد. اما جایگاه موسیقی عمیق جعلی هنوز در زمینه قانونی مبهم است.

با توجه به مقاله‌ اریک سانری، یکی از کارآموزان قانون انجمن ناشران موسیقی، هوش مصنوعی (artificial intelligence : field of computer science and engineering practices for intelligence demonstrated by machines and intelligent agents) مولد موسیقی مانند MusicLM شرکت گوگل با ایجاد نوارهای صوتی منسجم از آثار دریافت شده در آموزش، حق کپی‌رایت موسیقی را نقض می‌کنند و در نتیجه قوانین مربوط به حقوق مالکیت فکری و معنوی و سرقت آثار ایالات متحده را زیر پا می‌گذارند.

پس از ارائه Jukebox، همچنین مساله منصفانه بودن استفاده از موسیقی‌های دارای حق کپی‌رایت در آموزش مدل‌های هوش مصنوعی، از دغدغه‌های منتقدان بود. نگرانی‌های مشابهی در مورد داده‌های آموزشی مورد استفاده در سیستم‌های هوش مصنوعی تولیدکننده تصویر، کد و متن، و اغلب بدون اطلاع سازندگان، مطرح شده است.

از دیدگاه اندی بایو یکی از کاربران Waxy، موسیقی تولید شده توسط یک سیستم هوش مصنوعی به عنوان یک اثر مشتق در نظر گرفته می‌شود، در این صورت تنها عناصر اصیل توسط کپی رایت محفوظ می‌مانند. البته نحوه تشخیص کدام عناصر، به عنوان اصیل مشخص نیست. استفاده تجاری از این نوع تولید موسیقی به منظور ورود به محدوده‌های ناشناخته در این زمینه است. اگر از تولید موسیقی برای مقاصد منصفانه، مانند تقلید و تفسیر استفاده شود، موضوع ساده تر خواهد بود، اما انتظار بایو بر این است که قضاوت‌های مربوط به‌این شکایات باید پایه‌ای‌ و مختص به هر مورد باشد.

تا زمان ایجاد شفافیت در این مورد فاصله زیادی باقی نیست. احتمال شکل‌گیری چندین دادخواست بر ضد هوش مصنوعی مولد موسیقی از جمله از سوی هنرمندانی که از کارشان بدون اطلاع یا رضایت آنها برای آموزش سیستم های هوش مصنوعی استفاده شده‌ایت، وجود دارد. همه چیز با گذشت زمان مشخص خواهد شد.