وقتی مردم صحبت میکنند، به این فکر میکنند که چگونه کلمات را با دهانشان فرم بدهند این در حالی است که در واقع، اصلاً لازم نیست که صحبت کنیم تا مغز فعالیت مربوط به گفتار را شکل دهد.
به گزارش تک ناک، واقعیت این است که بخشهایی از مغز که دهان را کنترل میکند و بخشهایی که شامل درک و شکلدهی زبان هستند، از هم جدا هستند. محققان آزمایشگاه هوش مصنوعی فیسبوک ، متا پلتفرم این دانش را همراه با هوش مصنوعی به کار گرفتهاند تا یاد بگیرند که چگونه به افرادی که آسیبهای عصبی دیدهاند کمک کنند و آنها را قادر به برقراری ارتباط از طریق گفتار، تایپ یا حرکات دست بکنند.
ژان ریمی کینگ، دانشمند تحقیقاتی در آزمایشگاه فایر گفت: ما یک مدل هوش مصنوعی ایجاد کردهایم که میتواند روش خواندن گفتار از مغز را از ثبت های غیرتهاجمی فعالیت مغز رمزگشایی کند. رمزگشایی گفتار از فعالیت مغز هدف دیرینه عصبشناسان و پزشکان بوده است، اما بیشتر پیشرفتها به تکنیکهای تهاجمی ثبت مغز متکی بوده است.
اکثر مردم ممکن است با انواع رایج اسکن مغز مانند تصویربرداری رزونانس مغناطیسی، یا ام آر ای، و توموگرافی کامپیوتری یا سی تی، که هر دو تصاویر دقیقی از مغز تولید می کنند، آشنا باشند. با این حال، آنها ساختارها را به جای فعالیت نشان می دهند. بهترین راهها برای ثبت فعالیتهای مداوم مغز ، تهاجمی بوده است – یعنی باز کردن جمجمه و قرار دادن الکترودها مستقیماً روی خود مغز.
با این حال، تکنیکهای غیرتهاجمی مانند الکتروانسفالوگرام، نوار مغزی و مغناطیسی مغزی، MEG، میتوانند مغز را از بیرون اسکن کنند و بدون هیچگونه جراحی، فعالیت را تماشا کنند. هر دو روش EEG و MEG میتوانند عکسهای فوری در حد میلیثانیه از فعالیت مغز بگیرند، که آنها را برای مشاهده مداوم فعالیت مغز افراد هنگام گوش دادن عالی میکند.
مشکل این است که آنها تصویر خیلی واضحی از آنچه اتفاق میافتد دریافت نمیکنند، زیرا ثبت EEG و MEG میتوانند بسیار پر سر و صدا باشند. اگرچه آنها برای تشخیص صدمات مفید هستند، اما آنها را برای تعیین فعالیت های مغزی خاص و ظریف مانند اینکه فرد در فکر گفتن کلمه “گربه” باشد، کاربردی نمی کند.کینگ گفت: «ضبطهای غیرتهاجمی بسیار پر سر و صدا هستند و میتوانند به دلایل مختلفی از جمله تفاوت در مغز هر فرد و محل قرارگیری حسگرها در جلسات ضبط و افراد متفاوت باشند.
برای رفع این مشکل، محققان فایر به الگوریتمهای یادگیری ماشینی روی آوردند تا به «پاکسازی» نویز کمک کنند. مدلی که آنها استفاده کردند wave2vec 2.0 نام دارد، یک ابزار AI منبع باز که توسط تیم FAIR در سال 2020 توسعه یافت و می تواند برای شناسایی گفتار صحیح از صدای پر سر و صدا استفاده شود.سپس این ابزار را با چهار روش ثبت اوپن سورس EEG و MEG شامل 150 ساعت از 169 داوطلب سالم در حال گوش دادن به کتاب های صوتی و جملات مجزا به زبان انگلیسی به زبان هلندی به این ابزار اختصاص دادند. این ضبطها سپس به مجموعه آموزشی برای مدل wave2vec 2.0 تبدیل شدند که میتوان از آن برای بهبود توانایی آن در انتخاب کلمات بالقوهای که یک فرد شنیده استفاده کرد.
کینگ میگوید: با توجه به بخشی از فعالیت مغز، میتوان برای درک روش خواندن گفتار از مغز از مجموعه بزرگی از کلیپهای صوتی جدید استفاده کرد و تشخیص داد که شخص واقعاً کدام یک را شنیده است». از آنجا، الگوریتم هوش مصنوعی کلماتی را استنباط میکند که فرد به احتمال زیاد شنیده است.
محققان این را دلگرمکننده دانستند زیرا نشان میدهد که هوش مصنوعی میتواند آموزش رمزگشایی ضبطهای پر سر و صدا و متغیر فعالیت مغز از گفتار درک شده را بیاموزد. این منجر به رمزگشای بسیار متنوعتر میشود که نیازی به واژگان از پیش تنظیمشده ندارد.
با این حال، کینگ هشدار داد که این تنها اولین گام است، زیرا تنها بر رمزگشایی خواندن گفتار از مغز تمرکز دارد، اگرچه هدف نهایی این مطالعه این است که بیماران را قادر به برقراری ارتباط با اجازه دادن به تولید گفتار کند. حتی میتواند منجر به پیشرفتهای بیشتر فناوری مانند روشهای جدید برای کنترل رایانهها فقط با فکر کردن به کلمات یا کار در دست شود.کینگ گفت: «به طور کلی، کار ما بخشی از تلاش گستردهتر جامعه علمی برای استفاده از هوش مصنوعی برای درک بهتر مغز انسان است.