مایکروسافت با مدل صوتی جدید DragonV2.1 قواعد فناوری دیپ‌فیک را دگرگون می‌ کند

شرکت مایکروسافت از نسخه جدید مدل صوتی خود با نام DragonV2.1Neural رونمایی کرد که قواعد فناوری دیپ‌فیک را دگرگون می‌ کند.

به گزارش تک‌ناک، این مدل جدید مایکروسافت می‌تواند تنها با چند ثانیه نمونه صدا، صدایی طبیعی، دقیق و قابل‌ کنترل را در بیش از ۱۰۰ زبان تولید کند.

این مدل که در قالب قابلیت Personal Voice از سرویس Azure AI Speech ارائه شده، به‌ عنوان یک مدل «صفر-نمونه‌ای» (Zero-Shot) طراحی شده است و تحولی چشمگیر در شخصی‌سازی صدا و تولید گفتار مصنوعی به حساب می‌آید.

01
از 04
صدایی طبیعی‌تر، دقیق‌تر و قابل‌کنترل‌تر

شرکت مایکروسافت اعلام کرده است که مدل صوتی جدید DragonV2.1 نسبت به نسخه قبلی خود یعنی DragonV1، بهبودهای چشمگیری در زمینه کیفیت تولید صدا ارائه می‌دهد. این مدل جدید توانسته است با کاهش میانگین ۱۲.۸ درصدی در نرخ خطای کلمات (WER)، صدایی با آهنگ گفتاری طبیعی‌تر (prosody)، تلفظ دقیق‌تر و پایداری بالاتر ارائه کند. همچنین کاربران با استفاده از برچسب‌های SSML و واژه‌نامه‌های سفارشی می‌توانند کنترل دقیقی بر نحوه تلفظ، لهجه و ویژگی‌های صوتی داشته باشند.

02
از 04
کاربردهای متنوع مدل صوتی جدید مایکروسافت

قابلیت‌های DragonV2.1 تنها محدود به تولید صدا نیست، بلکه این مدل امکان‌های جدیدی برای کاربردهای گسترده در اختیار کاربران قرار می‌دهد. از جمله مهم‌ترین استفاده‌ها می‌توان به شخصی‌سازی صدای چت‌بات‌ها، دوبله محتوای ویدیویی با صدای اصلی بازیگر در زبان‌های مختلف و تقلید لهجه‌ها یا افراد خاص اشاره کرد. شرکت مایکروسافت برای سهولت آزمایش این مدل، پروفایل‌های صوتی آماده‌ای با نام‌های Andrew، Ava و Brian ارائه داده است.

مایکروسافت مدل صوتی جدید DragonV2.1 را معرفی کرد

03
از 04
نگرانی‌ها درباره دیپ‌فیک و تدابیر امنیتی

با وجود قابلیت‌های پیشرفته، معرفی چنین مدلی نگرانی‌هایی را در خصوص سوءاستفاده برای تولید دیپ‌فیک‌های صوتی به همراه داشته است. مایکروسافت برای مقابله با این تهدیدها، تدابیر امنیتی سخت‌گیرانه‌ای را اعمال کرده است. کاربران برای استفاده از این مدل ملزم به پذیرش سیاست‌های مشخصی هستند، که شامل دریافت رضایت صریح از گوینده اصلی، افشای صراحت محتوای مصنوعی و ممنوعیت هرگونه تقلید یا فریب‌کاری می‌شود.

از سوی دیگر، این شرکت اعلام کرده است که تمام خروجی‌های صوتی تولیدشده توسط DragonV2.1 به‌ صورت خودکار دارای واترمارک دیجیتال نامرئی خواهند بود. به گفته مایکروسافت، این فناوری قادر است با دقت ۹۹.۷ درصدی حتی در صورت ویرایش‌های مختلف صوت، اصالت محتوای تولیدشده را تشخیص دهد.

04
از 04
دسترسی آزمایشی به مدل صوتی جدید مایکروسافت

قابلیت Personal Voice اکنون از طریق Speech Studio به‌ صورت آزمایشی در دسترس است. همچنین شرکت‌ها و توسعه‌دهندگان می‌توانند برای دریافت دسترسی کامل به API جهت استفاده تجاری اقدام کنند.

شرکت مایکروسافت با معرفی DragonV2.1، گام بلندی در مسیر تحول فناوری‌های گفتار مصنوعی و کاربردهای صوتی هوش مصنوعی برداشته است؛ گامی که در عین توانمندی بالا، چالش‌های اخلاقی و امنیتی جدیدی را نیز پیش روی توسعه‌دهندگان و کاربران قرار می‌دهد.