Meta Redefine Communication مدلهای Seamless را معرفی کرد. این ابزار هوش مصنوعی میتواند مترجمی گویا در بین بیش از صد زبان دنیا فراهم کند.
بهگزارش تکناک، چند روز پیش، محققان Meta AI اعلامیهای مهمی برای مجموعه مدلهای هوش مصنوعی ارتباطات Seamless منتشر کردند. نکتهی جالب دربارهی این مدلها آن است که همهی آنها بهدنبال طبیعیترکردن ارتباطات بینزبانی هستند. بهنظر میرسد آنها تلاش میکنند تا ایدهی مترجم گفتار جهانی قدرتمند را به واقعیت تبدیل کنند. این هفته، محققان Meta AI این مدلها را با مقالات تحقیقاتی و تمام دادههایی دراختیار عموم قرار دادند که ممکن است برخی از آدمها به آن نیاز داشته باشند.
ستارهی این نمایشگاه مدل Seamless است. این مدل مانند اَبَرقهرمانی از ترکیب قدرتهای سه مدل دیگر، یعنی SeamlessExpressive و SeamlessStreaming و SeamlessM4T v2، در سیستمی عظیم استفاده میکند. طبق مقالات منتشرشده، Seamless اولین سیستم عمومی دردسترس است که میتواند ارتباطات چندزبانه را همزمان احساس کند و بهطور واقعی نمایش دهد.
نحوهی عملکرد این سیستم یکپارچه بهعنوان مترجم مانند چرخندهای با سه توپ است؛ اما این توپها مدلهای شبکه عصبی هستند. SeamlessExpressive دربارهی حفظ سبک صوتی و احساسات سخنران در طول ترجمه است. این مانند تلاش برای ضبط ارتباطات انسانی واقعی است، نه آن چیزهای رباتیک و تکنوکراتیک که با ابزارهای ترجمهی دیگر معمولاً مواجهایم.
سپس، SeamlessStreaming که مانند Flash of the trio است، این ترجمه را در زمان واقعی درحدود دو ثانیه انجام میدهد. این اولین مدل انبوه چندزبانه نامیده شده است که این کار را با سرعت بسیار زیاد تقریباً به صد زبان انجام میدهد. سومین عضو این سهگانه مدل SeamlessM4T v2 است. این مدل ستون فقرات مدل Seamless است. نسخهی یادشده نسخهی بهبودیافتهای از مدل قدیمیتر SeamlessM4T است و هماهنگی بهتری بین متن و خروجی گفتاری را فراهم میکند.
نکتهی جالب این است که مدلهای مذکور میتوانند روش بحث و گفتوگو را در سطح جهان تغییر دهند. تصور کنید که با استفاده از عینک هوشمند همزمان به چندین زبان در گفتوگوهای واقعی شرکت کنید و ویدیوها و پادکستها بهطور خودکار ترجمه شوند. این ویژگی میتواند به افرادی کمک کند که با موانع زبانی مانند مهاجران در کشوری کاملاً جدید و بدون دانستن زبان جدید، دستوپنجه نرم میکنند.
بااینحال، باید به این موضوع نیز اشاره کنیم که محققان میدانند این فناوری میتواند شمشیری دولبه باشد و ممکن است برای کلاهبرداریها یا کارهای مضر دیگر استفاده شود. بنابراین، آنان اقدامات ایمنی مانند اعمال علائم صوتی مخصوص ایجاد کردهاند تا کارها را تحتکنترل نگه دارند. Meta AI این مدلها را در پلتفرمهای Hugging Face و Github منتشر کرده است. آنها میخواهند افراد باهوش دیگر روی این کار کنند و حتی آن را بهبود ببخشند.