Meta AI سه مدل Seamless معرفی کرد

Meta Redefine Communication مدل‌های Seamless را معرفی کرد. این ابزار هوش مصنوعی می‌تواند مترجمی گویا در بین بیش از صد زبان‌ دنیا فراهم کند.

به‌گزارش تک‌ناک، چند روز پیش، محققان Meta AI اعلامیه‌ای مهمی برای مجموعه مدل‌های هوش مصنوعی ارتباطات Seamless منتشر کردند. نکته‌ی جالب درباره‌ی این مدل‌ها آن است که همه‌ی آن‌ها به‌دنبال طبیعی‌تر‌کردن ارتباطات بین‌زبانی هستند. به‌نظر می‌رسد آن‌ها تلاش می‌کنند تا ایده‌ی مترجم گفتار جهانی قدرتمند را به واقعیت تبدیل کنند. این هفته، محققان Meta AI این مدل‌ها را با مقالات تحقیقاتی و تمام داده‌هایی دراختیار عموم قرار دادند که ممکن است برخی از آدم‌ها به آن نیاز داشته باشند.

ستاره‌ی این نمایشگاه مدل Seamless است. این مدل مانند اَبَرقهرمانی از ترکیب قدرت‌های سه مدل دیگر، یعنی SeamlessExpressive و SeamlessStreaming و SeamlessM4T v2، در سیستمی عظیم استفاده می‌کند. طبق مقالات منتشر‌شده، Seamless اولین سیستم عمومی در‌دسترس است که می‌تواند ارتباطات چندزبانه را هم‌زمان احساس کند و به‌طور واقعی نمایش دهد.

نحوه‌ی عملکرد این سیستم یکپارچه به‌عنوان مترجم مانند چرخنده‌ای با سه توپ است؛ اما این توپ‌ها مدل‌های شبکه عصبی هستند. SeamlessExpressive درباره‌ی حفظ سبک صوتی و احساسات سخنران در طول ترجمه است. این مانند تلاش برای ضبط ارتباطات انسانی واقعی است، نه آن چیزهای رباتیک و تکنوکراتیک که با ابزارهای ترجمه‌ی دیگر معمولاً مواجه‌ایم.

سپس، SeamlessStreaming که مانند Flash of the trio است، این ترجمه را در زمان واقعی در‌حدود دو ثانیه انجام می‌دهد. این اولین مدل انبوه چند‌زبانه نامیده شده است که این کار را با سرعت بسیار زیاد تقریباً به صد زبان انجام می‌دهد. سومین عضو این سه‌گانه مدل SeamlessM4T v2 است. این مدل ستون فقرات مدل Seamless است. نسخه‌ی یادشده نسخه‌ی بهبود‌یافته‌ای از مدل قدیمی‌تر SeamlessM4T است و هماهنگی بهتری بین متن و خروجی گفتاری را فراهم می‌کند.

نکته‌ی جالب این است که مدل‌های مذکور می‌توانند روش بحث و گفت‌وگو را در سطح جهان تغییر دهند. تصور کنید که با استفاده از عینک هوشمند هم‌زمان به چندین زبان در گفت‌وگوهای واقعی شرکت کنید و ویدیو‌ها و پادکست‌ها به‌طور خودکار ترجمه شوند. این ویژگی می‌تواند به افرادی کمک کند که با موانع زبانی مانند مهاجران در کشوری کاملاً جدید و بدون دانستن زبان جدید، دست‌و‌پنجه نرم می‌کنند.

بااین‌حال، باید به این موضوع نیز اشاره کنیم که محققان می‌دانند این فناوری می‌تواند شمشیری دو‌لبه باشد و ممکن است برای کلاه‌برداری‌ها یا کارهای مضر دیگر استفاده شود. بنابراین، آنان اقدامات ایمنی مانند اعمال علائم صوتی مخصوص ایجاد کرده‌اند تا کارها را تحت‌کنترل نگه دارند. Meta AI این مدل‌ها را در پلتفرم‌های Hugging Face و Github منتشر کرده است. آن‌ها می‌خواهند افراد باهوش دیگر روی این کار کنند و حتی آن را بهبود ببخشند.