دستیابی به تنوع بینایی انسان یکی از چالش های اصلی تحقیقات هوش مصنوعی است وعلیرغم تلاش محققان هنوز دستاوردی قابل عنوان حاصل نشده است .
به گزارش تکناک، در اکثریت قریب به اتفاق موارد، ما در درک دنیای اطرافمان بهتر از ماشین ها هستیم. اما ماشینها به آرامی اما مطمئناً در حال پیشرفت هستند.
مایکل فلسبرگ، استاد دانشگاه لینکوپینگ و یکی از برجسته ترین محققان سوئدی در بینایی کامپیوتری و هوش مصنوعی (AI) می گوید: ما انسانها در عرض یک روز میتوانیم از رانندگی با ماشین به غواصی آزاد برسیم و به خواندن روزنامه و پیمایش در یک جنگل انبوه ادامه دهیم – همه اینها بدون تلاش زیاد برای ما امکان پذیر است. برای یک روبات، انجام همان کارها در حال حاضر غیرممکن است.
این که ما انسان ها می توانیم همه این کارها و خیلی بیشتر از آن را انجام دهیم ، تا حد زیادی به دلیل داشتن بینایی است. تخمین ها می گویند که حدود 80 درصد از برداشت های ما از محیط از طریق بینایی به ما می رسد. این تنها مهم ترین حس برای درک آنچه در اطراف ما اتفاق می افتد است. تحقیقات مایکل فلسبرگ عمدتاً بر چیزی متمرکز است که سیستم بینایی مصنوعی نامیده می شود، جایی که هدف این است که رایانه ها به خوبی انسان ها ببینند.
مایکل فلسبرگ ادامه می دهد: سیستم های بیولوژیکی به سادگی کار می کنند. انسان ها در درک و تجزیه و تحلیل عمومی مهارت های قابل توجهی دارند، این همین مهارت هایی است که می خواهیم در رایانه ها شبیه سازی کنیم. امروز می توانیم سیستم های فنی بسازیم که در انجام یک کار خاص مانند وسایل نقلیه خودران خوب باشند. اما اگر در آینده میخواهیم بتوانیم با روباتها همکاری کنیم، آنها باید بتوانند دقیقاً آنچه را که ما میبینیم ببینند و درک کنند.
تقلید از دید انسان ممکن است در نگاه اول آسان به نظر برسد. وقتی تحقیقات هوش مصنوعی شروع شد، این احساس این بود که بینایی کامپیوتری با یک دوربین ساده حل می شود شاید پروژه ای برای تعطیلات تابستانی. اکنون، تقریباً 60 سال بعد، بینایی عمومی کامپیوتر به یکی از برجستهترین چالشها در تحقیقات هوش مصنوعی تبدیل شده است.
کد هوش مصنوعی در جایگاه مغز
مایکل فلسبرگ و همکارانش بسیاری از راه حل هایی را که در آزمایشگاه بینایی در پردیس والا در لینشوپینگ ایجاد می کنند آزمایش می کنند. به عنوان مثال پهپادهای خودران و خودروهای کوچک خودران مجهز به سنسورها و دوربینهای پیشرفته تستگردان برای حرکت ، بین دیوارهای شیشهای عظیم میشوند. اما مغز واقعی در بینایی کامپیوتر پشت لنز است.
مایکل فلسبرگ می گوید :دوربین فقط یک حسگر نور است؛ هیچ کار دیگری نمیتواند انجام دهد. کار واقعی توسط کد و نرمافزار پشت دوربین انجام میشود. در مورد انسان هم همینطور است: چشم نور را ثبت میکند و مغز کار را انجام میدهد.
تلاشهای زیادی برای تقلید از مغز انسان صورت گرفته است . امروزه معمولاً از روشی برای یادگیری ماشینی به نام یادگیری عمیق (deep learning) استفاده می شود. به زبان ساده، این بدان معناست که کامپیوتر مدلهای خود را که در شبکههای عصبی سازماندهی شدهاند، از مقادیر زیادی داده یاد میگیرد. الگوریتم ها با حجم عظیمی از داده ها تغذیه می شوند که در چندین سطح تجزیه و تحلیل می شوند. این ممکن است پیچیده به نظر برسد. حقیقت این است که هیچ کس نمی تواند دقیقاً بگوید که در هر فعال سازی در یک شبکه عصبی عمیق چه اتفاقی می افتد.
مایکل فلسبرگ تشابهاتی با مغز انسان ترسیم می کند و می گوید:در اسکن مغز شما می توانید ببینید که کدام قسمت های مغز در طول محرک های مختلف فعال هستند. اما ما هنوز نمی دانیم که واقعا چه اتفاقی می افتد و چگونه یک فکر در مغز شکل می گیرد. یادگیری عمیق به روشی مشابه عمل می کند. ما می بینیم. که کار می کند، جزییات آن را نمیدانیم.
راه پیش رو
اما چرا دیدن آنچه ما می بینیم برای یک کامپیوتر اینقدر دشوار است؟ پاسخ در توانایی ما برای انطباق سریع با موقعیت های مختلف و حلقه بازخورد بین درک ما از محیط اطراف و توانایی شناختی دائما فعال ما نهفته است.
نگاه کردن به بیرون از پنجره کثیف یک مثال روزمره از موقعیتی است که رایانه ها با مشکل مواجه هستند اما ما انسان ها شنا را مدیریت می کنیم. ما بلافاصله می بینیم که بیرون از پنجره چه می گذرد، علیرغم اینکه دید ما کمی مسدود شده است. از سوی دیگر، یک کامپیوتر ابتدا به طور خودکار روی خاک روی شیشه فوکوس می کند. اما هنگامی که فوکوس مناسب را پیدا کرد ( روی صحنه بیرون )هنوز به طور کامل متوجه نمی شود که چه اتفاقی می افتد، زیرا برخی از دید توسط خاک مسدود شده است.
با این حال، مناطقی وجود دارد که رایانهها در حال حاضر بهتر از انسانها میبینند بهویژه وقتی صحبت از محاسبات و ارزیابی دقیق فواصل، دما و الگوها میشود. در این موارد، بینایی کامپیوتری میتواند مکمل دید ما باشد، نه اینکه نتیجهگیری کند و بر اساس آنها عمل کند.
مایکل فلسبرگ میگوید: یک سیستم فنی تا زمانی که همه چیز مطابق انتظار باشد به خوبی کار میکند. اما در مواجهه با چیزی غیرمنتظره، مشکلاتی به همراه خواهد داشت. ما باید برای قویتر کردن سیستمها تلاش کنیم.
اما توسعه نرمافزاری که بتواند از انعطافپذیری بینایی انسان پیشی بگیرد، زمان میبرد و به گفته مایکل فلسبرگ، اگر میخواهیم تحقیقات قوی باشد، باید زمان ببرد. علم یک فرآیند است و هر مقاله تحقیقاتی جدید یک قطعه کوچک دیگر را به یک پازل عظیم اضافه می کند. پیشرفت هایی که به تحقیقات جهشی بزرگ به جلو می دهد بسیار نادر هستند.
مایکل فلسبرگ میگوید: آگاهی از موقعیت عمومی در رایانه احتمالاً در طول زندگی ما وجود دارد. اما ایجاد پیوند بین شناخت و آگاهی موقعیتی عمومی در رایانه احتمالاً در آینده بسیار دور است.
زمانی که دید کلی کامپیوتر وجود داشته باشد، او معتقد است که کاربردهای مختلفی وجود خواهد داشت، به عنوان مثال. ربات های اجتماعی، وسایل نقلیه خودران ایمن تر و تولید کارآمدتر. اما هوش مصنوعی غیر قابل بحث نیست. هنگامی که حجم زیادی از دادههای شخصی پردازش میشود، بسیاری از زمینههای استفاده در معرض خطر تجاوز به حریم خصوصی افراد هستند.
به همین دلیل، مایکل فلسبرگ و تیم تحقیقاتی او بر روی این موضوع تمرکز میکنند که چگونه هوش مصنوعی میتواند بینش بهتری در مورد اینکه چگونه میتوانیم از تغییرات آب و هوایی اضافی جلوگیری کنیم، ارائه میکند:
او گفت: تغییر آب و هوا یکی از بزرگترین تهدیدات بشریت است. با استفاده از بینایی کامپیوتری پیشرفته، میتوانیم به سرعت بخشهای بزرگی از زمین و اهمیت آنها را برای آب و هوا تجزیه و تحلیل کنیم. آنچه که انسان چندین سال طول میکشد تا به صورت دستی نقشهبرداری کند، میتواند به طور بالقوه در چند هفته با کمک هوش مصنوعی به صورت یک نقشه کامل شود.