بر اساس گزارشی که روز جمعه گذشته توسط یورونیوز منتشر شد، یک سیستم جدید تشخیص گفتار صامت که توسط محققان کره جنوبی ساخته شده است، می تواند کلمات را با ردیابی حرکات صورت به دقت تشخیص دهد.
به گزارش تکناک، اختراع جدید برای کمک به افراد کم شنوا طراحی شده است که همیشه نمی توانند با استفاده از زبان اشاره با دیگران ارتباط برقرار کنند. کاربردهای دیگر شامل کاربردهای نظامی برای زمانی است که ارتباطات رادیویی به دلیل نویز اطراف پیچیده می شود.
این سیستم تشخیص گفتار صامت از حسگرهای فشار برای تشخیص انبساط و انقباض پوست در حین به زبان آوردن کلمات استفاده میکند و از یک الگوریتم یادگیری عمیق برای تبدیل این حرکات صورت به کلمات استفاده میکند.
تیامین کیم از دانشکده مهندسی برق و الکترونیک دانشگاه یونسی، به یورونیوز گفت: حسگر فشاری که به صورت متصل است، بر اساس کشش پوست هنگام صحبت کردن، کشیده و کوچک میشود و متعاقبا خواص الکتریکی حسگرهای کرنش بر این اساس تغییر می کند.
تاکنون، این سیستم می تواند مجموعه ای از 100 کلمه را با دقت نزدیک به 88 درصد تشخیص دهد. سنسورها همچنین در برابر عرق و چربی زیر پوست مقاوم هستند و به طور قابل توجهی کوچکتر از دستگاه های مشابه قبلی هستند.
یک فهم بهتر
اندازه کوچک آنها به این معنی است که حسگرهای بیشتری را می توان روی صورت افراد به کار برد و در نتیجه درک بهتری از کلمات تلفظ شده به دست می آید.
کیم گفت: برای طبقه بندی و تشخیص کلمات بیشتر، وضوح بالاتری از اطلاعات مورد نیاز است. به همین دلیل است که امروزه محققان در تلاش برای توسعه یک سیستم گفتار بی صدا با وضوح بالا هستند که حسگر فشار دستگاه پوشیدنی ما را با یک مدار یکپارچه ترکیب می کند که معمولاً در نمایشگر یا صفحه نمایش و یا تولید نیمه هادی استفاده می شود.
اگر بتوانیم حجم اطلاعات را افزایش دهیم و در نتیجه سیستم بتواند کلمات و جملات بیشتری را تشخیص دهد، انتظار داریم روزی افراد مبتلا به اختلالات زبانی بتوانند در زندگی روزمره خود گفتگو کنند.
منسوخ شدن زبان اشاره
افزایش نوآوری های مانند این می تواند به زودی مترجمان و حتی زبان اشاره را منسوخ کند. در مارس 2021، گوگل از ویژگی Live Captions خود در مرورگرهای کروم رونمایی کرد. Live Caption از یادگیری ماشینی استفاده میکند تا فوراً زیرنویس را روی هر کلیپ ویدیویی یا صوتی ایجاد کند و به افراد کمشنوا یا ناشنوا دسترسی بیشتری به محتوای اینترنتی ارائه دهد.
در گذشته و حال زیرنویسها یا از قبل برای فرمتهای ویدیویی برنامهریزی شده بودند، یا یک تند نویس شرح وقایعی که از تلویزیون پخش میشد فوری تایپ میکرد. با این حال، در مکانهایی که زیرنویس سازی متداول نیست، مانند برنامههایی مانند اینستاگرام یا TikTok، یافتن شرحها و توضیحات تقریباً غیرممکن است. Live Caption این را تغییر میدهد. با چند ضربه روی صفحه، هر کاربری میتواند زیرنویسهای آنی و دقیقی داشته باشد که دامنه فهم صوتی و تصویری را افزایش میدهد.
زیرنویس زنده گوگل نوعی NLP یا پردازش زبان طبیعی است. NLP نوعی هوش مصنوعی است که از الگوریتمهایی برای تسهیل تعامل بین افراد و ماشینها استفاده میکند. NLP ها به ما کمک می کنند تا زبان های انسانی را به زبان ماشین و برعکس رمزگشایی کنیم.