شرکت OpenAI هوش مصنوعی Voice Engine را رونمایی کرد

شرکت OpenAI اعلام کرد دسترسی محدودی به یک پلتفرم تولید متن به گفتار به نام Voice Engine ارائه می‌دهد.

به گزارش تکناک، این پلتفرم می‌تواند با استفاده از یک کلیپ ۱۵ ثانیه‌ای از صدای فرد، یک صدای مصنوعی بسازد. صدای تولید‌شده توسط هوش مصنوعی قادر است بر اساس دستورات، متون را به همان زبانی که از آن فرد ضبط شده یا زبان‌های دیگر بخواند.

شرکت OpenAI در وبلاگ خود گفته‌است: «این استقرارهای محدود به ما کمک می‌کند تا رویکرد، ضمانت‌ها و تفکر خود را در مورد چگونگی استفاده از موتور صدا برای اهداف خوب در صنایع مختلف بهبود بخشیم.»

ورج گزارش می‌دهد که شرکت‌هایی که به این فناوری دسترسی دارند شامل شرکت فناوری آموزشی «عصر یادگیری»، پلتفرم داستان‌سرایی تصویری «HeyGen»، سازنده نرم‌افزار سلامت خط مقدم «Dimagi»، سازنده اپلیکیشن ارتباطی با هوش مصنوعی «Livox» و سیستم سلامت «Lifespan» هستند.

در نمونه‌های ارائه‌شده توسط OpenAI، می‌توانید بشنوید که «عصر یادگیری» چگونه از این فناوری برای تولید محتوای از پیش نوشته‌شده برای صداگذاری و همچنین خواندن «پاسخ‌های شخصی‌سازی‌شده در لحظه» برای دانش‌آموزان که توسط GPT-4 نوشته شده‌است، استفاده می‌کند.

ابتدا فایل صوتی مرجع به زبان انگلیسی:

صدای 1

و در اینجا سه کلیپ صوتی تولید شده توسط هوش مصنوعی بر اساس آن نمونه وجود دارد،

OpenAI اعلام کرد که توسعه « Voice Engine» را از اواخر سال ۲۰۲۲ آغاز کرده است و این فناوری از پیش برای صداهای از پیش تعیین‌شده در API تبدیل متن به گفتار و ویژگی «خواندن با صدای بلند» در ChatGPT مورد استفاده قرار گرفته است. جف هریس، یکی از اعضای تیم محصول OpenAI برای Voice Engine، در مصاحبه‌ای با TechCrunch گفت که این مدل روی «مجموعه‌ای از داده‌های مجوزدار و در دسترس عموم» آموزش دیده است. OpenAI به این نشریه گفت که این مدل فقط برای حدود ۱۰ توسعه‌دهنده در دسترس خواهد بود.

تولید متن به صدا با هوش مصنوعی، حوزه‌ای از هوش مصنوعی تولیدکننده است که همچنان در حال پیشرفت است. در حالی که اکثر آن‌ها روی صداهای سازی یا صداهای طبیعی تمرکز دارند، تعداد کمتری روی تولید صدا تمرکز کرده‌اند. برخی از نام‌های فعال در این زمینه شامل شرکت‌هایی مانند Podcastle و ElevenLabs هستند که فناوری شبیه‌سازی صدای هوش مصنوعی و ابزارهایی را ارائه می‌دهند که Vergecast سال گذشته به آن‌ها پرداخته است.

در همین حال، دولت ایالات متحده در تلاش است تا از کاربردهای غیر اخلاقی فناوری صدای هوش مصنوعی جلوگیری کند. ماه گذشته، کمیسیون ارتباطات فدرال پس از دریافت تماس‌های اسپم از صدای شبیه‌سازی‌شده هوش مصنوعی رئیس جمهور جو بایدن، تماس‌های خودکار با صدای هوش مصنوعی را ممنوع کرد.

بر اساس گفته‌های OpenAI، شرکای آن‌ها با خط‌مشی‌های استفاده‌ موافقت کرده‌اند که می‌گوید بدون رضایت افراد یا سازمان‌ها از Voice Generation برای جعل هویت آن‌ها استفاده نخواهند کرد. این شرایط همچنین نیازمند آن است که شرکا «رضایت صریح و آگاهانه» فرد اصلی را جلب کنند، نه اینکه راه‌هایی برای کاربران عادی برای ایجاد صدای خودشان ایجاد کنند و به شنوندگان اطلاع دهند که صداها توسط هوش مصنوعی تولید شده‌اند. OpenAI همچنین برای ردیابی منشأ صداها، از واترمارک در کلیپ‌های صوتی استفاده کرده و به طور فعال نحوه استفاده از صدا را کنترل می‌کند.

OpenAI چندین قدم را پیشنهاد کرد که فکر می‌کند می‌تواند ریسک‌های مرتبط با چنین ابزارهایی را محدود کند، از جمله حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حساب‌های بانکی، سیاست‌هایی برای محافظت از استفاده از صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد دیپ‌فیک‌های هوش مصنوعی و توسعه سیستم‌های ردیابی محتوای هوش مصنوعی.