متا با Voicebox دنیای ویرایش صدا را متحول می کند

متا اعلام کرد Voicebox، مدل هوش مصنوعی مولد جدید خود برای تولید و ویرایش صدا را به بازار عرضه کرده است.

به گزارش تکناک، Voicebox پس از ImageBind معرفی شده و با قابلیت انجام وظایف تولید گفتاری مانند ویرایش صدا، نمونه گیری، و استایلینگ به خالقان کمک می کند، حتی اگر به طور خاص برای انجام این کارها از طریق یادگیری در محیط مورد نظر آموزش ندیده باشد.

متا برای این مدل هوش مصنوعی جدید خود تبلیغاتی راهبردی راه اندازی کرده است که مزایای آن را برای افراد زیادی در سراسر جهان نشان می دهد. این شرکت به عنوان مثال، به کمک این مدل، افراد نابینا را قادر می سازد تا پیام های نوشتاری از دوستان خود را با صدای آنها بشنوند و همچنین به افراد امکان می دهد که به زبان های خارجی با صدای خودشان صحبت کنند.

این مدل هوش مصنوعی قادر است کلیپ های صوتی با کیفیت بالا تولید کند و صداهای پیش ضبط شده را برای حذف اختلالات ناخواسته مانند صدای بوق خودرو و در عین حفظ محتوا و سبک صوت ویرایش کند. همچنین این مدل قابلیت تولید گفتار را به شش زبان دارد. توسعه های آینده برای این مدل شامل بخشیدن صدایی طبیعی به دستیارهای بصری یا شخصیت های غیر بازیکن در بازی های متاورس می باشد.

همچنین متا مدل های دیگر هوش مصنوعی صوتی را که در حال حاضر وجود دارند، با Voicebox مقایسه کرده است. این شرکت به طور خاص مدل های Vall-E و YourTTS را به عنوان رقبا مطرح کرده و نشان داده است که Voicebox به مراتب پیشرفته تر و در مقایسه با آن دو مدل، با کاهش نرخ خطای واژگان و شباهت سبک، از آنها عملکرد بهتری دارد.

Voicebox بر اساس مدل Flow Matching ساخته شده است که آخرین مدل مولد غیر خودکار متا می‌باشد. این مدل قادر است به‌صورت بسیار غیر مقطعی، الگو برداری بین متن و گفتار را یاد بگیرد و به Voicebox اجازه می دهد تا از داده های گفتاری متنوع و در مقیاس بزرگ بدون نیاز به برچسب گذاری دقیق یاد بگیرد.

تاکنون Voicebox، با استفاده از بیش از ۵۰ هزار ساعت گفتار ضبط شده و ترجمه های متنی از کتاب های صوتی در زبان های انگلیسی، فرانسه، اسپانیایی، آلمانی، لهستانی و پرتغالی آموزش دیده است و همچنین قادر است به هنگام دادن گفتار و متن بخشی از گفتار را پیش بینی کند.

در نهایت، متا به این نکته اشاره می کند که در حالی که این فناوری می‌تواند دوره‌ای جدید از هوش مصنوعی مولد برای گفتار را به همراه داشته باشد، اما ممکن است پتانسیل سوء استفاده و صدمات غیر قابل تصوری داشته باشد.

در مقاله پژوهشی که متا درباره Voicebox منتشر خواهد کرد، جزئیاتی درباره ساخت یک طبقه بندی بسیار موثر که می تواند بین گفتار اصیل و گفتار تولید شده توسط Voicebox تفاوت قائل شود، به طور کامل آورده خواهد شد.

متا برنامه هوش مصنوعی را برای استفاده عمومی در دسترس قرار نخواهد داد و همچنین کد منبع را منتشر نخواهد کرد.