شرکت مایکروسافت از نسخه جدید مدل صوتی خود با نام DragonV2.1Neural رونمایی کرد که قواعد فناوری دیپفیک را دگرگون می کند.
به گزارش تکناک، این مدل جدید مایکروسافت میتواند تنها با چند ثانیه نمونه صدا، صدایی طبیعی، دقیق و قابل کنترل را در بیش از ۱۰۰ زبان تولید کند.
این مدل که در قالب قابلیت Personal Voice از سرویس Azure AI Speech ارائه شده، به عنوان یک مدل «صفر-نمونهای» (Zero-Shot) طراحی شده است و تحولی چشمگیر در شخصیسازی صدا و تولید گفتار مصنوعی به حساب میآید.
فهرست مطالب
صدایی طبیعیتر، دقیقتر و قابلکنترلتر
شرکت مایکروسافت اعلام کرده است که مدل صوتی جدید DragonV2.1 نسبت به نسخه قبلی خود یعنی DragonV1، بهبودهای چشمگیری در زمینه کیفیت تولید صدا ارائه میدهد. این مدل جدید توانسته است با کاهش میانگین ۱۲.۸ درصدی در نرخ خطای کلمات (WER)، صدایی با آهنگ گفتاری طبیعیتر (prosody)، تلفظ دقیقتر و پایداری بالاتر ارائه کند. همچنین کاربران با استفاده از برچسبهای SSML و واژهنامههای سفارشی میتوانند کنترل دقیقی بر نحوه تلفظ، لهجه و ویژگیهای صوتی داشته باشند.
کاربردهای متنوع مدل صوتی جدید مایکروسافت
قابلیتهای DragonV2.1 تنها محدود به تولید صدا نیست، بلکه این مدل امکانهای جدیدی برای کاربردهای گسترده در اختیار کاربران قرار میدهد. از جمله مهمترین استفادهها میتوان به شخصیسازی صدای چتباتها، دوبله محتوای ویدیویی با صدای اصلی بازیگر در زبانهای مختلف و تقلید لهجهها یا افراد خاص اشاره کرد. شرکت مایکروسافت برای سهولت آزمایش این مدل، پروفایلهای صوتی آمادهای با نامهای Andrew، Ava و Brian ارائه داده است.

نگرانیها درباره دیپفیک و تدابیر امنیتی
با وجود قابلیتهای پیشرفته، معرفی چنین مدلی نگرانیهایی را در خصوص سوءاستفاده برای تولید دیپفیکهای صوتی به همراه داشته است. مایکروسافت برای مقابله با این تهدیدها، تدابیر امنیتی سختگیرانهای را اعمال کرده است. کاربران برای استفاده از این مدل ملزم به پذیرش سیاستهای مشخصی هستند، که شامل دریافت رضایت صریح از گوینده اصلی، افشای صراحت محتوای مصنوعی و ممنوعیت هرگونه تقلید یا فریبکاری میشود.
از سوی دیگر، این شرکت اعلام کرده است که تمام خروجیهای صوتی تولیدشده توسط DragonV2.1 به صورت خودکار دارای واترمارک دیجیتال نامرئی خواهند بود. به گفته مایکروسافت، این فناوری قادر است با دقت ۹۹.۷ درصدی حتی در صورت ویرایشهای مختلف صوت، اصالت محتوای تولیدشده را تشخیص دهد.
دسترسی آزمایشی به مدل صوتی جدید مایکروسافت
قابلیت Personal Voice اکنون از طریق Speech Studio به صورت آزمایشی در دسترس است. همچنین شرکتها و توسعهدهندگان میتوانند برای دریافت دسترسی کامل به API جهت استفاده تجاری اقدام کنند.
شرکت مایکروسافت با معرفی DragonV2.1، گام بلندی در مسیر تحول فناوریهای گفتار مصنوعی و کاربردهای صوتی هوش مصنوعی برداشته است؛ گامی که در عین توانمندی بالا، چالشهای اخلاقی و امنیتی جدیدی را نیز پیش روی توسعهدهندگان و کاربران قرار میدهد.