متا مدل جدیدی از ترجمه گفتار به متن را با نام SeamlessM4T منتشر کرده است که تقریباً 100 زبان را ترجمه میکند. این اقدام جزئی از تلاش شرکت برای ساخت یک مترجم جهانی است.
به گزارش تکناک، این مدل زبانی قادر است گفتار به متن و متن به متن را برای تقریباً 100 زبان ترجمه کند. برای عملکردهای گفتار به گفتار و متن به گفتار، این مدل قادر به تشخیص 100 زبان ورودی است و آنها را به 35 زبان خروجی تبدیل میکند.
این مدل تحت مجوز Creative Commons CC BY-NC 4.0 منتشر شده است و به محققان اجازه می دهد تا بر روی آن تکرار کنند. همچنین همراه با SeamlessM4T، متا نیز متادیتاهای مجموعه داده ترجمه باز SeamlessAlign را منتشر کرد.
متا گفت: “ساختن یک مترجم چندزبانه جهانی، مانند Babel Fish داستانی در Hitchhiker’s Guide to the Galaxy، چالش برانگیز است زیرا سیستمهای موجود گفتار به گفتار و گفتار به متن تنها بخش کوچکی از زبانهای جهان را پوشش میدهند.”
Babel Fish در Hitchhiker’s Guide که توسط نویسنده Douglas Adams ابداع شده است، یک ماهی است که میتوانید آن را در گوش خود قرار داده و فوری هر زبانی را درک کنید. اگر طرفدار Doctor Who هستید، میتوانید این ابزار متا را با ماتریس ترجمه در TARDIS مقایسه کنید که حتی کلمات خارجی را به انگلیسی تبدیل میکند.
متا گفت SeamlessM4T نشان دهنده “پیشرفت قابل توجهی” است زیرا این مدل جدید کل کار ترجمه را یکجا انجام می دهد، برخلاف سایر مدل های ترجمه بزرگ که ترجمه را در سیستم های مختلف تقسیم می کنند.
یکی از ویژگیهای جالب SeamlessM4T، اگر بتواند به درستی عمل کند، قابلیت تشخیص کدسوئیچ کردن یا تغییر زبان توسط یک سخنران یا هنگامی که فردی در یک جمله بین دو یا چند زبان حرکت میکند است. به عنوان مثال، متا در یک ویدیو نشان داد که این مدل بین زبان هندی، تلوگو و انگلیسی تفاوت را در کمترین زمان ممکن تشخیص میدهد.
SeamlessM4T بر مدلهای ترجمه قبلی متا تکیه میکند. در سال گذشته، متا مدل ترجمه متن به متن بدون ترک زبان را منتشر کرد که پشتیبانی از 200 زبان را داشت.
این شرکت مجموعه داده SpeechMatrix را برای ترجمه گفتار به گفتار چندزبانه و Massively Multilingual Speech برای تشخیص گفتار توسعه داد. متا در سال گذشته ترجمهگر گفتاری جهانی خود را نمونهبرداری کرد و توانست زبان Hokkien، یکی از زبانهای رایج در چین که سیستم نوشتار رسمی ندارد، را به انگلیسی تبدیل کند.
ترجمه زبان برای شرکتهایی مانند متا که هزاران نفر را برای مدیریت تعداد زیادی از پستهای فیسبوک و اینستاگرام به زبانهای مختلف استخدام میکنند، بسیار مهم است. اغلب زبانهای غیراصلی تیمهای کوچکتری دارند و معمولاً به مدیریت خودکاری که با این زبانها به خوبی کار نمیکند، وابسته میشوند. اگر هوش مصنوعی به مجموعه دادههای این زبانهای کوچکتر دسترسی داشته باشد، میتواند ابزاری برای شرکتهایی مانند متا، برای بهبود اعتدال باشد.
برای ساخت SeamlessM4T، متا اعلام کرد که ابزارکار مدلسازی توالی Fairseq خود را بازطراحی کرده است تا مدلهایی با وزن کمتر ایجاد کند و بیشترین حجم اطلاعات را پردازش کند.
در حین توسعه SeamlessM4T، متا اعلام کرد که سیستمی را ساخته است که کلمات سمی یا حساس را شناسایی میکند. متا کلمات سمی را به عنوان مواردی تعریف میکند که “ترجمه ممکن است احساسات نفرت، خشونت، ناسزا یا سوءاستفاده را القا کند”. هدف این است که بتوان تشخیص داد که آیا ترجمه نهایی سمیت را که در متن اصلی وجود نداشته است، به متن وارد میکند یا خیر.
متا اعلام کرده است: “ما سمیت ناهماهنگ را در دادههای آموزش فیلتر کردیم. اگر ورودی یا خروجی شامل مقادیر مختلفی از سمیت باشد، ما آن دنباله آموزشی را حذف میکنیم.”
همچنین، پژوهشگران سعی کردهاند مجموعه دادهها را تمیز کنند تا بتوانند به دقت بیشتری تشخیص دهند که هنگام استفاده از کلمات ناسزا، ترجمه نادرستی انجام شده است.
متا ادعا کرده است که این مدل نیز توانایی تشخیص تعصب جنسیتی در زبانها را دارد و اعلام کرده است که مدل قادر است تعصب جنسیتی در ترجمهها را به شیوهای اندازهگیری کند. SeamlessM4T میتواند بررسی کند که آیا در جمله از شکل جنسیتی یک کلمه مثلاً “doctora” در زبان اسپانیایی استفاده شده است و در صورت لزوم به زبان هدف، بدون در نظر گرفتن قواعد گرامر جنسیتی معادل زن را تعیین کند.