شرکت OpenAI اعلام کرد دسترسی محدودی به یک پلتفرم تولید متن به گفتار به نام Voice Engine ارائه میدهد.
به گزارش تکناک، این پلتفرم میتواند با استفاده از یک کلیپ ۱۵ ثانیهای از صدای فرد، یک صدای مصنوعی بسازد. صدای تولیدشده توسط هوش مصنوعی قادر است بر اساس دستورات، متون را به همان زبانی که از آن فرد ضبط شده یا زبانهای دیگر بخواند.
شرکت OpenAI در وبلاگ خود گفتهاست: «این استقرارهای محدود به ما کمک میکند تا رویکرد، ضمانتها و تفکر خود را در مورد چگونگی استفاده از موتور صدا برای اهداف خوب در صنایع مختلف بهبود بخشیم.»
ورج گزارش میدهد که شرکتهایی که به این فناوری دسترسی دارند شامل شرکت فناوری آموزشی «عصر یادگیری»، پلتفرم داستانسرایی تصویری «HeyGen»، سازنده نرمافزار سلامت خط مقدم «Dimagi»، سازنده اپلیکیشن ارتباطی با هوش مصنوعی «Livox» و سیستم سلامت «Lifespan» هستند.
در نمونههای ارائهشده توسط OpenAI، میتوانید بشنوید که «عصر یادگیری» چگونه از این فناوری برای تولید محتوای از پیش نوشتهشده برای صداگذاری و همچنین خواندن «پاسخهای شخصیسازیشده در لحظه» برای دانشآموزان که توسط GPT-4 نوشته شدهاست، استفاده میکند.
ابتدا فایل صوتی مرجع به زبان انگلیسی:
صدای 1
و در اینجا سه کلیپ صوتی تولید شده توسط هوش مصنوعی بر اساس آن نمونه وجود دارد،
OpenAI اعلام کرد که توسعه « Voice Engine» را از اواخر سال ۲۰۲۲ آغاز کرده است و این فناوری از پیش برای صداهای از پیش تعیینشده در API تبدیل متن به گفتار و ویژگی «خواندن با صدای بلند» در ChatGPT مورد استفاده قرار گرفته است. جف هریس، یکی از اعضای تیم محصول OpenAI برای Voice Engine، در مصاحبهای با TechCrunch گفت که این مدل روی «مجموعهای از دادههای مجوزدار و در دسترس عموم» آموزش دیده است. OpenAI به این نشریه گفت که این مدل فقط برای حدود ۱۰ توسعهدهنده در دسترس خواهد بود.
تولید متن به صدا با هوش مصنوعی، حوزهای از هوش مصنوعی تولیدکننده است که همچنان در حال پیشرفت است. در حالی که اکثر آنها روی صداهای سازی یا صداهای طبیعی تمرکز دارند، تعداد کمتری روی تولید صدا تمرکز کردهاند. برخی از نامهای فعال در این زمینه شامل شرکتهایی مانند Podcastle و ElevenLabs هستند که فناوری شبیهسازی صدای هوش مصنوعی و ابزارهایی را ارائه میدهند که Vergecast سال گذشته به آنها پرداخته است.
در همین حال، دولت ایالات متحده در تلاش است تا از کاربردهای غیر اخلاقی فناوری صدای هوش مصنوعی جلوگیری کند. ماه گذشته، کمیسیون ارتباطات فدرال پس از دریافت تماسهای اسپم از صدای شبیهسازیشده هوش مصنوعی رئیس جمهور جو بایدن، تماسهای خودکار با صدای هوش مصنوعی را ممنوع کرد.
بر اساس گفتههای OpenAI، شرکای آنها با خطمشیهای استفاده موافقت کردهاند که میگوید بدون رضایت افراد یا سازمانها از Voice Generation برای جعل هویت آنها استفاده نخواهند کرد. این شرایط همچنین نیازمند آن است که شرکا «رضایت صریح و آگاهانه» فرد اصلی را جلب کنند، نه اینکه راههایی برای کاربران عادی برای ایجاد صدای خودشان ایجاد کنند و به شنوندگان اطلاع دهند که صداها توسط هوش مصنوعی تولید شدهاند. OpenAI همچنین برای ردیابی منشأ صداها، از واترمارک در کلیپهای صوتی استفاده کرده و به طور فعال نحوه استفاده از صدا را کنترل میکند.
OpenAI چندین قدم را پیشنهاد کرد که فکر میکند میتواند ریسکهای مرتبط با چنین ابزارهایی را محدود کند، از جمله حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حسابهای بانکی، سیاستهایی برای محافظت از استفاده از صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد دیپفیکهای هوش مصنوعی و توسعه سیستمهای ردیابی محتوای هوش مصنوعی.