این اختراع جدید می‌تواند زبان اشاره را منسوخ کند

بر اساس گزارشی که روز جمعه گذشته توسط یورونیوز منتشر شد، یک سیستم جدید تشخیص گفتار صامت که توسط محققان کره جنوبی ساخته شده است، می تواند کلمات را با ردیابی حرکات صورت به دقت تشخیص دهد.

به گزارش تکناک، اختراع جدید برای کمک به افراد کم شنوا طراحی شده است که همیشه نمی توانند با استفاده از زبان اشاره با دیگران ارتباط برقرار کنند. کاربردهای دیگر شامل کاربردهای نظامی برای زمانی است که ارتباطات رادیویی به دلیل نویز اطراف پیچیده می شود.

این سیستم تشخیص گفتار صامت از حسگرهای فشار برای تشخیص انبساط و انقباض پوست در حین به زبان آوردن کلمات استفاده می‌کند و از یک الگوریتم یادگیری عمیق برای تبدیل این حرکات صورت به کلمات استفاده می‌کند.

تیامین کیم از دانشکده مهندسی برق و الکترونیک دانشگاه یونسی، به یورونیوز گفت: حسگر فشاری که به صورت متصل است، بر اساس کشش پوست هنگام صحبت کردن، کشیده و کوچک می‌شود و متعاقبا خواص الکتریکی حسگرهای کرنش بر این اساس تغییر می کند.

تاکنون، این سیستم می تواند مجموعه ای از 100 کلمه را با دقت نزدیک به 88 درصد تشخیص دهد. سنسورها همچنین در برابر عرق و چربی زیر پوست مقاوم هستند و به طور قابل توجهی کوچکتر از دستگاه های مشابه قبلی هستند.

یک فهم بهتر

اندازه کوچک آنها به این معنی است که حسگرهای بیشتری را می توان روی صورت افراد به کار برد و در نتیجه درک بهتری از کلمات تلفظ شده به دست می آید.

حسگرها حرکات صورت را برای درک کلمات ردیابی می کنند

کیم گفت: برای طبقه بندی و تشخیص کلمات بیشتر، وضوح بالاتری از اطلاعات مورد نیاز است. به همین دلیل است که امروزه محققان در تلاش برای توسعه یک سیستم گفتار بی صدا با وضوح بالا هستند که حسگر فشار دستگاه پوشیدنی ما را با یک مدار یکپارچه ترکیب می کند که معمولاً در نمایشگر یا صفحه نمایش و یا تولید نیمه هادی استفاده می شود.

اگر بتوانیم حجم اطلاعات را افزایش دهیم و در نتیجه سیستم بتواند کلمات و جملات بیشتری را تشخیص دهد، انتظار داریم روزی افراد مبتلا به اختلالات زبانی بتوانند در زندگی روزمره خود گفتگو کنند.

منسوخ شدن زبان اشاره

افزایش نوآوری های مانند این می تواند به زودی مترجمان و حتی زبان اشاره را منسوخ کند. در مارس 2021، گوگل از ویژگی Live Captions خود در مرورگرهای کروم رونمایی کرد. Live Caption از یادگیری ماشینی استفاده می‌کند تا فوراً زیرنویس‌ را روی هر کلیپ ویدیویی یا صوتی ایجاد کند و به افراد کم‌شنوا یا نا‌شنوا دسترسی بیشتری به محتوای اینترنتی ارائه دهد.

در گذشته و حال زیرنویس‌ها یا از قبل برای فرمت‌های ویدیویی برنامه‌ریزی شده بودند، یا یک تند نویس شرح وقایعی که از تلویزیون پخش می‌شد فوری تایپ می‌کرد. با این حال، در مکان‌هایی که زیرنویس سازی متداول نیست، مانند برنامه‌هایی مانند اینستاگرام یا TikTok، یافتن شرح‌ها و توضیحات تقریباً غیرممکن است. Live Caption این را تغییر می‌دهد. با چند ضربه روی صفحه، هر کاربری می‌تواند زیرنویس‌های آنی و دقیقی داشته باشد که دامنه فهم صوتی و تصویری را افزایش می‌دهد.

زیرنویس زنده گوگل نوعی NLP یا پردازش زبان طبیعی است. NLP نوعی هوش مصنوعی است که از الگوریتم‌هایی برای تسهیل تعامل بین افراد و ماشین‌ها استفاده می‌کند. NLP ها به ما کمک می کنند تا زبان های انسانی را به زبان ماشین و برعکس رمزگشایی کنیم.