مدل ترجمه گفتار به متن چندزبانه متا منتشر شد

متا مدل جدیدی از ترجمه گفتار به متن را با نام SeamlessM4T منتشر کرده است که تقریباً 100 زبان را ترجمه می‌کند. این اقدام جزئی از تلاش شرکت برای ساخت یک مترجم جهانی است.

به گزارش تکناک، این مدل زبانی قادر است گفتار به متن و متن به متن را برای تقریباً 100 زبان ترجمه کند. برای عملکردهای گفتار به گفتار و متن به گفتار، این مدل قادر به تشخیص 100 زبان ورودی است و آن‌ها را به 35 زبان خروجی تبدیل می‌کند.

این مدل تحت مجوز Creative Commons CC BY-NC 4.0 منتشر شده است و به محققان اجازه می دهد تا بر روی آن تکرار کنند. همچنین همراه با SeamlessM4T، متا نیز متادیتاهای مجموعه داده ترجمه باز SeamlessAlign را منتشر کرد.

متا گفت: “ساختن یک مترجم چندزبانه جهانی، مانند Babel Fish داستانی در Hitchhiker’s Guide to the Galaxy، چالش برانگیز است زیرا سیستم‌های موجود گفتار به گفتار و گفتار به متن تنها بخش کوچکی از زبان‌های جهان را پوشش می‌دهند.”

Babel Fish در Hitchhiker’s Guide که توسط نویسنده Douglas Adams ابداع شده است، یک ماهی است که می‌توانید آن را در گوش خود قرار داده و فوری هر زبانی را درک کنید. اگر طرفدار Doctor Who هستید، می‌توانید این ابزار متا را با ماتریس ترجمه در TARDIS مقایسه کنید که حتی کلمات خارجی را به انگلیسی تبدیل می‌کند.

متا گفت SeamlessM4T نشان دهنده “پیشرفت قابل توجهی” است زیرا این مدل جدید کل کار ترجمه را یکجا انجام می دهد، برخلاف سایر مدل های ترجمه بزرگ که ترجمه را در سیستم های مختلف تقسیم می کنند.

یکی از ویژگی‌های جالب SeamlessM4T، اگر بتواند به درستی عمل کند، قابلیت تشخیص کدسوئیچ کردن یا تغییر زبان توسط یک سخنران یا هنگامی که فردی در یک جمله بین دو یا چند زبان حرکت می‌کند است. به عنوان مثال، متا در یک ویدیو نشان داد که این مدل بین زبان هندی، تلوگو و انگلیسی تفاوت را در کمترین زمان ممکن تشخیص می‌دهد.

SeamlessM4T بر مدل‌های ترجمه قبلی متا تکیه می‌کند. در سال گذشته، متا مدل ترجمه متن به متن بدون ترک زبان را منتشر کرد که پشتیبانی از 200 زبان را داشت.

این شرکت مجموعه داده SpeechMatrix را برای ترجمه گفتار به گفتار چندزبانه و Massively Multilingual Speech برای تشخیص گفتار توسعه داد. متا در سال گذشته ترجمه‌گر گفتاری جهانی خود را نمونه‌برداری کرد و توانست زبان Hokkien، یکی از زبان‌های رایج در چین که سیستم نوشتار رسمی ندارد، را به انگلیسی تبدیل کند.

ترجمه زبان برای شرکت‌هایی مانند متا که هزاران نفر را برای مدیریت تعداد زیادی از پست‌های فیسبوک و اینستاگرام به زبان‌های مختلف استخدام می‌کنند، بسیار مهم است. اغلب زبان‌های غیراصلی تیم‌های کوچکتری دارند و معمولاً به مدیریت خودکاری که با این زبان‌ها به خوبی کار نمی‌کند، وابسته می‌شوند. اگر هوش مصنوعی به مجموعه داده‌های این زبان‌های کوچک‌تر دسترسی داشته باشد، می‌تواند ابزاری برای شرکت‌هایی مانند متا، برای بهبود اعتدال باشد.

برای ساخت SeamlessM4T، متا اعلام کرد که ابزارکار مدل‌سازی توالی Fairseq خود را بازطراحی کرده است تا مدل‌هایی با وزن کمتر ایجاد کند و بیشترین حجم اطلاعات را پردازش کند.

در حین توسعه SeamlessM4T، متا اعلام کرد که سیستمی را ساخته است که کلمات سمی یا حساس را شناسایی می‌کند. متا کلمات سمی را به عنوان مواردی تعریف می‌کند که “ترجمه ممکن است احساسات نفرت، خشونت، ناسزا یا سوءاستفاده را القا کند”. هدف این است که بتوان تشخیص داد که آیا ترجمه نهایی سمیت را که در متن اصلی وجود نداشته است، به متن وارد می‌کند یا خیر.

متا اعلام کرده است: “ما سمیت ناهماهنگ را در داده‌های آموزش فیلتر کردیم. اگر ورودی یا خروجی شامل مقادیر مختلفی از سمیت باشد، ما آن دنباله آموزشی را حذف می‌کنیم.”

همچنین، پژوهشگران سعی کرده‌اند مجموعه داده‌ها را تمیز کنند تا بتوانند به دقت بیشتری تشخیص دهند که هنگام استفاده از کلمات ناسزا، ترجمه نادرستی انجام شده است.

متا ادعا کرده است که این مدل نیز توانایی تشخیص تعصب جنسیتی در زبان‌ها را دارد و اعلام کرده است که مدل قادر است تعصب جنسیتی در ترجمه‌ها را به شیوه‌ای اندازه‌گیری کند. SeamlessM4T می‌تواند بررسی کند که آیا در جمله از شکل جنسیتی یک کلمه مثلاً “doctora” در زبان اسپانیایی استفاده شده است و در صورت لزوم به زبان هدف، بدون در نظر گرفتن قواعد گرامر جنسیتی معادل زن را تعیین کند.