محققان دانشگاه MIT روش جدیدی را به منظور حل بهتر مسائل پیچیده پایداری-اجتناب نسبت به سایر روشها با یادگیری ماشینی ابداع کرده اند.
به گزارش تکناک،این روش یادگیری ماشینی، امنیتی معادل یا بیشتر از روشهای موجود فراهم میکند و در عین حال پایداری را ده برابر افزایش میدهد، یعنی عامل به هدف خود میرسد و در آن حالت پایدار باقی میماند.
چوچو فان، استاد دستیار ویلسون در علوم هوانوردی و هوافضا، عضو آزمایشگاه برای سیستمهای اطلاعات و تصمیم (LIDS)، و نویسنده ارشد این مقاله جدید در مورد این روش می گوید: این مسئله از مدتها پیش یک مشکل چالشبرانگیز بوده است. بسیاری از افراد به بررسی آن پرداخته اند اما به نحوه مدیریت چنین دینامیکهای پیچیده و چند بعدی آگاه نبودهاند.
فان در این مقاله با اوسوین سو همکاری کرده است و در کنفرانس علوم و سیستمهای رباتیک ارائه خواهد شد.
چالش پایداری-اجتناب
بسیاری از روشها با سادهسازی سیستم به مبارزه با مسائل پیچیده پایداری-اجتناب به منظور حل آن با معادلات ساده ریاضی میپردازند، اما نتایج ساده شده اغلب با دینامیکهای واقعی جهان انطباق ندارند.
روشهای موثرتر از یادگیری تقویتی، روش یادگیری ماشینی با آموزش بر اساس آزمون و خطا و دریافت پاداش هنگام نزدیک شدن به هدف، استفاده میکنند. در اینجا تنها دو هدف وجود دارد : پایداری و اجتناب از موانع، به همراه یافتن تعادل مناسب بین آنها که فرایندی طاقت فرساست.
محققان MIT این مشکل را به دو مرحله تقسیم کردهاند. اول، آنها مسئله پایداری-اجتناب را به عنوان یک مسئله بهینهسازی محدود بررسی کردند. طبق توضیحات سو، در این تنظیم، بهینهسازی امکان دستیابی سیستم به هدف خود و پایداری را فراهم میکند، یعنی در یک منطقه خاص باقی میماند. سپس با اعمال محدودیتها، آنها میتوانند از اجتناب سیستم از موانع اطمینان حاصل کنند.
سپس در مرحله دوم، آنها این مسئله بهینهسازی محدود را به معادلات ریاضی معروف، اپیگراف، بازمیگردانند و با استفاده از یک الگوریتم یادگیری تقویتی عمیق آن را حل میکنند. اپیگراف امکان اجتناب از مشکلات به وجودآمده هنگام استفاده سایر روشها از یادگیری تقویتی را فراهم میکند.
سو میگوید :با این حال، یادگیری تقویتی عمیق برای حل شکل اپیگراف یک مسئله بهینهسازی طراحی نشده است، بنابراین نمیتوان آن را به طور مستقیم در معادله این مشکل قرار داد. بدین منظور ما با تبیین مشتقات ریاضی صادق برای سیستم خود و سپس با در دست داشتن مشتقات جدید، آنها را با برخی از حقههای مهندسی موجود مورد استفاده توسط سایر روشها، ترکیب کردیم.
جایگاه دوم امتیازی ندارد
برای آزمایش روش خود، آنها تعدادی آزمایش کنترل با شرایط اولیه مختلف طراحی کردند. برای مثال، در برخی از شبیهسازیها، سیستم خودکار برای رسیدن به منطقه هدف و باقی ماندن در آن به همراه انجام مانورهای ناگهانی برای جلوگیری از برخورد با موانع مسیر برنامه ریزی شد.
هنگام مقایسه با چندین خط مبنا، روش آنها تنها روشی بود که توانست در همه مسیرها ضمن حفظ امنیت، پایدار بماند. برای آزمایش حالات بیشتر در روش خود، آنها از آن در پرواز یک هواپیمای جت مجازی در یک سناریو مانند فیلم “Top Gun” استفاده کردند. جت در حالی که باید ارتفاع بسیار پایین خود را حفظ میکرد و در یک مسیر باریک پرواز باقی میماند، باید نسبت به یک هدف نزدیک زمین نیز پایدار میشد.
این مدل جت مجازی در سال 2018 منبع باز بود و توسط کارشناسان کنترل پرواز به عنوان یک چالش آزمایشی طراحی شده بود. به گفته فان، مدل به حدی پیچیده بود که کار کردن با آن مشکل بود، و هنوز امکان کنترل سناریوهای پیچیده وجود نداشت.
کنترل کننده محققان MIT توانست از سقوط یا توقف جت هنگام استقرار در منطقه هدف، بهتر از استقرار در هر یک از خطوط مبنا جلوگیری کند.
در آینده، این روش میتواند نقطه شروعی برای طراحی کنترلکنندههای رباتهای بسیار پویا مانند پهپادهای تحویل اتوماتیک باشد و نیازهای امنیتی و پایداری آنها رابرآورده کند. یا میتواند به عنوان بخشی از سیستم بزرگتر اجرا شود. این الگوریتم میتواند تنها هنگام لغزش ماشین روی یک جاده برفی برای کمک به راننده برای بازگشت امن به مسیر پایدار فعال شود.
سو همچنین افزود: این روش در موقعیتهای بسیار سخت و خارج از کنترل یک انسان بسیار کاربردی خواهد بود.
وی گفت: «ما معتقدیم هدف این حوزه باید تلاش برای ایجاد ایمنی و پایداری یادگیری تقویتی باشد که هنگام نیاز به استفاده از کنترلکنندهها در سیستمهای حیاتی-ماموریتی با اطمینان به کار گرفته شوند. از نظر ما این گام اول امیدوارکنندهای برای دستیابی به این هدف است.»
در ادامه، پژوهشگران قصد بهبود تکنیک خود به منظور در نظر گرفتن عدم قطعیت در حل بهینهسازی و همچنین بررسی نحوه عملکرد الگوریتم در هنگام استقرار روی سختافزار را دارند. این عملکرد در ابتدای پیاده سازی دچار اختلافاتی بین پویایی مدل و دنیای واقعی خواهد بود.
“تیم استاد فان کارایی یادگیری تقویتی را برای سیستمهای پویا متمرکز بر امنیت افزایش داده است. آنها به جای تنها تمرکز بر یک هدف، کنترلکنندههایی با اطمینان دستیابی ایمن به هدف و استقرار نامحدود در منطقه، خواهند ساخت”، به گفته استنلی بک، استادیار در بخش علوم کامپیوتر دانشگاه Stony Brook، “فرمولاسیون بهبود یافته آنها امکان ایجاد کنترلکنندههای ایمن برای سناریوهای پیچیده را فراهم میکند. این فرمولاسیون یک مدل هواپیمای جت غیر خطی 17 حالته که بخشی از آن توسط پژوهشگران آزمایشگاه تحقیقات نیروی هوایی (AFRL) طراحی شده است، و معادلات تفاضلی غیر خطی را با جداول برداشت و کشش در بر میگیرد.”