یک تیم به رهبری MIT از ابداع یک شبکه عصبی اپتیکی خبر میدهد که میتواند به مدلهای هوش مصنوعی یادگیری ماشین چندین مرتبه قدرتمندتر از ChatGPT منجر شود.
به گزارش تکناک، سیستمی که آنها توسعه دادهاند، همچنین میتواند از انرژی چندین درجه کمتری نسبت به سوپرکامپیوترهای پیشرفته پشت پرده مدلهای یادگیری ماشینی امروزی استفاده کند.
ChatGPT با توانایی خود در نوشتن مقاله، ایمیل و کدهای کامپیوتری بر اساس چند درخواست کاربر، سرفصل خبرها در سراسر جهان شده است. اکنون یک تیم تحت رهبری MIT از ساخت سیستمی خبر می دهد که میتواند به ایجاد مدل های هوش مصنوعی یادگیری ماشینی چندین مرتبه قدرتمندتر از برنامه ChatGPT منجر شود.
همچنین سیستمی که آنها ابداع کرده اند می تواند چندین مرتبه انرژی کمتری نسبت به ابررایانههای پیشرفته در مدلهای یادگیری ماشین امروزی مصرف کند.
در یک شماره اخیر از Nature Photonics، محققان نخستین نمایش تجربی از این شبکه عصبی اپتیکی جدید خبر داده اند، که محاسبات خود را بر اساس حرکت نور، به جای الکترونها، با استفاده از صدها لیزر مقیاس میکرونی انجام میدهد. با این سیستم جدید، تیم گزارش میدهد که یک بهبود بیش از ۱۰۰ برابری در کارایی انرژی و ۲۵ برابر بهبود در چگالی محاسباتی، که یک معیار از قدرت یک سیستم است، نسبت به کامپیوترهای دیجیتال پیشرفته برای یادگیری ماشین داشتهاند.
در این مقاله، تیم نیز اشاره دارد که «چندین مرحله بیشتر برای بهبود در آینده» وجود دارد.
به عبارت دیگر، این تکنیک «یک راه جدید را برای پردازندههای اپتوالکترونیک مقیاس بزرگ باز میکند تا وظایف یادگیری ماشینی را از مراکز داده تا دستگاههای لبه غیرمرکزی شتاب ببخشد.»
به عبارت دیگر، تلفنهای همراه و سایر دستگاههای کوچک میتوانند برنامههایی را اجرا کنند که در حال حاضر فقط در مراکز داده بزرگ قابل محاسبه هستند.
زایجون چن، نویسنده اول، که این کار را در حین دوره پسادکترای خود در آزمایشگاه تحقیقات الکترونیک (RLE) در MIT انجام داده و اکنون استادیار در دانشگاه جنوب کالیفرنیا است، میگوید از آنجا اجزای سیستم را می توان با استفاده از فرآیندهای ساخت که امروزه استفاده می شود ایجاد کرد.
به عنوان مثال، آرایههای لیزر مورد استفاده در شناسایی چهره تلفنهای همراه و ارتباطات داده که به طور گستردهای استفاده میشوند، ما انتظار داریم این سیستم بتواند در چند سال آینده برای استفادههای تجاری مقیاسبندی شود.
دیرک انگلوند، دانشیار دپارتمان مهندسی برق و علوم کامپیوتر MIT و رهبر این کار میگوید: «ChatGPT به دلیل قدرت ابررایانههای امروزی از نظر اندازه محدود است. آموزش مدل های بسیار بزرگتر از نظر اقتصادی مقرون به صرفه نیست. فنآوری جدید ما میتواند جهش به مدلهای یادگیری ماشینی را که در آینده نزدیک قابل دسترس نیستند، ممکن سازد.
ما نمیدانیم که ChatGPT نسل بعد اگر ۱۰۰ برابر قویتر باشد چه توانمندیهایی خواهد داشت ، اما این حوزه کشفی است که این نوع تکنولوژی میتواند فراهم کند.
مدل فعلی آخرین دستاورد در یک سلسله از پیشرفتها است که در چند سال گذشته توسط انگلوند و بسیاری از همکاران او انجام شده است است. به عنوان مثال، در سال ۲۰۱۹، یک تیم به رهبری انگلوند یک تئوری را ارائه داد که به ابداع سیستم کنونی منجر شد.
شبکههای عصبی عمیق (DNNs) مانند آنچه در پشت ChatGPT است، بر مبنای مدلهای یادگیری ماشینی عظیمی هستند که نحوه پردازش اطلاعات توسط مغز را شبیهسازی میکنند. با این حال حتی زمانی که حوزه یادگیری ماشینی در حال رشد است.
تکنولوژیهای دیجیتال پشت DNNهای امروز به مرز محدودیت های ممکن رسیدهاند. علاوه بر این، آنها به مقادیر زیادی انرژی نیاز دارند و به مراکز داده بزرگ محدود هستند. این موضوع انگیزه توسعه پارادایمهای محاسباتی جدیدی را فراهم میکند.
شبکههای عصبی نوری و پتانسیل آنها
استفاده از نور در شبکه عصبی اپتیکی به جای الکترونها برای انجام محاسبات DNN میتواند پتانسیل داشته باشد تا از محدودیتهای کنونی عبور کند. محاسبات با استفاده از اپتیک، به عنوان مثال، پتانسیل دارند تا انرژی کمتری نسبت به محاسبات بر اساس الکترونیک مصرف کنند. علاوه بر این، با اپتیک، «میتوانید پهنای باند بسیار بزرگتری داشته باشید،» یا چگالی محاسبات، چن میگوید. نور میتواند اطلاعات بسیار بیشتری را بر روی یک منطقه بسیار کوچکتر انتقال دهد.
با این حال، شبکههای عصبی نوری کنونی (ONNs) با چالشهای مهمی مواجه هستند. به عنوان مثال، آنها مقدار زیادی انرژی مصرف میکنند زیرا در تبدیل دادههای ورودی بر اساس انرژی الکتریکی به نور ناکارآمد هستند. علاوه بر این، مؤلفههای مورد استفاده حجیم هستند و فضای زیادی را اشغال میکنند. در حالی که ONNs در محاسبات خطی مانند جمع بندی بسیار خوب هستند، آنها در محاسبات غیر خطی مانند ضرب و عبارات «اگر» عملکرد خوبی ندارند.
در کار کنونی، محققان یک معماری فشرده معرفی کردهاند که برای نخستین بار، تمامی این چالشها و دو مورد دیگر را همزمان حل میکند. این معماری بر اساس آرایههای روز از لیزرهای عمودی ارسالکننده سطح (VCSELs) است، یک تکنولوژی نسبتاً جدید که در کاربردهایی مانند حسگری از راه دور لیدار و چاپ لیزر استفاده میشود.
VCSELs خاص مورد گزارش در مقاله Nature Photonics توسط گروه Reitzenstein در دانشگاه تکنیک برلین توسعه یافتهاند. هامرلی میگوید: «این یک پروژه مشترک بود که بدون آنها ممکن نبودهاست.»
لوگان رایت، استادیار در دانشگاه ییل که در تحقیق کنونی شرکت نداشته است، میگوید: «کار انجام شده توسط زایجون چن و دیگران الهامبخش است، من و احتمالاً بسیاری از دیگر محققان در این زمینه را تشویق میکند که سیستمهایی که بر اساس آرایههای VCSEL مدوله شده اند، میتوانند یک راه عملی برای شبکههای عصبی نوری مقیاس بزرگ، سریع باشند.
البته، وضعیت فعلی در اینجا هنوز خیلی دور از مقیاس و هزینهای است که برای دستگاههای کاربردی مفید نیاز است، اما من نسبت به آنچه میتوان در چند سال آینده تحقق یابد، امیدوارم، به ویژه با توجه به پتانسیلی که این سیستمها برای شتابدهی به سیستمهای هوش مصنوعی بسیار گرانقیمت و مقیاس بزرگ دارند، مانند آنهایی که در سیستمهای متنی محبوب ‘GPT’ مانند ChatGPT استفاده میشوند.»