دوبله هم‌زمان ویدیو با مدل هوش مصنوعی جدید گوگل ممکن شد

شرکت گوگل از عرضه مدل هوش مصنوعی ترجمه زنده صوت به صوت خود با نام جمنای ۳.۵ لایو ترنسلیت خبر داده که زمان زیادی تا آغاز امکان استفاده از آن باقی نمانده است.

به گزارش سرویس هوش مصنوعی تک‌ناک، در همین راستا، آن روزی که بتوان فارغ از موانع زبانی، گفت‌وگوهایی بی‌وقفه و بلادرنگ داشت، بسیار نزدیک‌تر از گذشته به نظر می‌رسد.

بر اساس اعلام گوگل، جمنای ۳.۵ لایو ترنسلیت قادر به تشخیص خودکار بیش از ۷۰ زبان است. همچنین این مدل می‌تواند ترجمه‌هایی با صدای طبیعی تولید نماید که لحن، سرعت و فراز و فرود صدای گوینده را حفظ می‌کند. علاوه بر این، برخلاف سیستم‌های نوبتی که منتظر می‌مانند تا صحبت گوینده تمام شود، این مدل می‌تواند به طور پیوسته گفتار ترجمه‌شده را تولید کند.

در نمونه‌های ارائه‌شده، گوگل این مدل هوش مصنوعی را در دو دمو به آزمایش گذاشته است. دموی اول تجربه‌ای از دوبله زنده را نشان می‌دهد که در آن یک ویدیو به صورت بلادرنگ به زبانی دیگر ترجمه می‌شود. در همین حال، دموی دوم ترجمه هوشمند گوگل بر ترجمه سخنرانی‌ها و ارائه‌ها به چندین زبان تمرکز دارد. نتایج به‌دست‌آمده کاملا تحسین‌برانگیز هستند.

گوگل اعلام کرده است که جمنای ۳.۵ لایو ترنسلیت در دسترس کاربران گوگل میت قرار خواهد گرفت. این قابلیت پس از عرضه، از بیش از ۷۰ زبان پشتیبانی خواهد کرد که پیشرفتی قابل توجه نسبت به محدودیت فعلی پنج زبانی محسوب می‌شود. یکی دیگر از نکات برجسته این است که امکان استفاده از بیش از ۲۰۰۰ ترکیب زبانی در یک جلسه فراهم خواهد شد. پیش از این، ترجمه گفتار در میت تنها از انگلیسی به زبان‌های دیگر و بالعکس انجام می‌شد. همچنین گوگل قصد دارد رابط کاربری میت را به‌روزرسانی کند تا دسترسی به ترجمه گفتار سریع‌تر انجام شود.

نسخه بهبودیافته ترجمه گفتار در میت در ابتدا به صورت پیش‌نمایش خصوصی برای برخی از مشتریان تجاری گوگل ورک‌اسپیس عرضه خواهد شد. این عرضه برای تاریخ نامشخصی در اواخر ماه جاری برنامه‌ریزی شده است. هرچند، این غول فناوری قصد دارد آن را در ادامه سال جاری برای کاربران بیشتری گسترش دهد.

علاوه بر این، جمنای ۳.۵ لایو ترنسلیت برای اپلیکیشن ترنسلیت در اندروید و iOS به صورت جهانی عرضه می‌شود. گوگل همراه با این نسخه، حالت شنیداری جدیدی را برای اندروید معرفی می‌کند. علاوه بر گوش دادن به ترجمه‌های زنده از طریق هدفون، این حالت جدید امکان شنیدن مستقیم ترجمه‌ها را از طریق بلندگوی گوشی فراهم می‌کند.

بر اساس گزارش اندروید آتوریتی، همانند تمام محتواهای ساخته‌شده توسط هوش مصنوعی، صداهای تولیدشده توسط مدل جمنای ۳.۵ لایو ترنسلیت گوگل با استفاده از سینت‌آی‌دی واترمارک خواهند شد. برای کسانی که با سینت‌آی‌دی آشنایی ندارند، باید گفت که این یک واترمارک نامرئی است که برای جلوگیری از انتشار اطلاعات نادرست استفاده می‌شود. گوگل عنوان کرده است که این واترمارک مستقیما در خروجی صوتی بافته خواهد شد.