حل بهتر مسائل پیچیده با روش یادگیری ماشینی

محققان دانشگاه MIT روش جدیدی را به منظور حل بهتر مسائل پیچیده پایداری-اجتناب نسبت به سایر روش‌ها با یادگیری ماشینی ابداع کرده اند.

به گزارش تکناک،این روش یادگیری ماشینی، امنیتی معادل یا بیشتر از روش‌های موجود فراهم می‌کند و در عین حال پایداری را ده برابر افزایش می‌دهد، یعنی عامل به هدف خود می‌رسد و در آن حالت پایدار باقی می‌ماند.

چوچو فان، استاد دستیار ویلسون در علوم هوانوردی و هوافضا، عضو آزمایشگاه برای سیستم‌های اطلاعات و تصمیم (LIDS)، و نویسنده ارشد این مقاله جدید در مورد این روش می گوید: این مسئله از مدت‌ها پیش یک مشکل چالش‌برانگیز بوده است. بسیاری از افراد به بررسی آن پرداخته اند اما به نحوه مدیریت چنین دینامیک‌های پیچیده و چند بعدی آگاه نبوده‌اند.

فان در این مقاله با اوسوین سو همکاری کرده است و در کنفرانس علوم و سیستم‌های رباتیک ارائه خواهد شد.

چالش پایداری-اجتناب

بسیاری از روش‌ها با ساده‌سازی سیستم به مبارزه با مسائل پیچیده پایداری-اجتناب به منظور حل آن با معادلات ساده ریاضی می‌پردازند، اما نتایج ساده شده اغلب با دینامیک‌های واقعی جهان انطباق ندارند.

روش‌های موثرتر از یادگیری تقویتی، روش یادگیری ماشینی با آموزش بر اساس آزمون و خطا  و دریافت پاداش هنگام نزدیک شدن به هدف، استفاده می‌کنند. در اینجا تنها دو هدف وجود دارد : پایداری و اجتناب از موانع، به همراه یافتن تعادل مناسب بین آنها که فرایندی طاقت فرساست.

محققان MIT این مشکل را به دو مرحله تقسیم کرده‌اند. اول، آنها مسئله پایداری-اجتناب را به عنوان یک مسئله بهینه‌سازی محدود بررسی کردند. طبق توضیحات سو، در این تنظیم، بهینه‌سازی امکان دستیابی سیستم به هدف خود و پایداری را فراهم می‌کند، یعنی در یک منطقه خاص باقی می‌ماند. سپس با اعمال محدودیت‌ها، آنها می‌توانند از اجتناب سیستم از موانع اطمینان حاصل کنند.

Autopilot Simulated Jet Aircraft
این ویدئو نشان می‌دهد که چگونه محققان از تکنیک خود برای پرواز مؤثر یک هواپیمای جت شبیه‌سازی شده در سناریویی استفاده کردند که در آن هواپیما باید به هدفی نزدیک به زمین تثبیت می‌شد، در حالی که ارتفاع بسیار پایینی داشت و در یک راهرو پروازی باریک قرار می‌گرفت.

سپس در مرحله دوم، آنها این مسئله بهینه‌سازی محدود را به معادلات ریاضی معروف، اپیگراف، بازمی‌گردانند و با استفاده از یک الگوریتم یادگیری تقویتی عمیق آن را حل می‌کنند. اپیگراف امکان اجتناب از مشکلات به وجود‌آمده هنگام استفاده سایر روش‌ها از یادگیری تقویتی را فراهم می‌کند.

سو می‌گوید :با این حال، یادگیری تقویتی عمیق برای حل شکل اپیگراف یک مسئله بهینه‌سازی طراحی نشده است، بنابراین نمی‌توان آن را به طور مستقیم در معادله این مشکل قرار داد. بدین منظور ما با تبیین مشتقات ریاضی صادق برای سیستم خود و سپس با در دست داشتن مشتقات جدید، آنها را با برخی از حقه‌های مهندسی موجود مورد استفاده توسط سایر روش‌ها، ترکیب کردیم.

جایگاه دوم امتیازی ندارد

برای آزمایش روش خود، آنها تعدادی آزمایش کنترل با شرایط اولیه مختلف طراحی کردند. برای مثال، در برخی از شبیه‌سازی‌ها، سیستم خودکار برای رسیدن به منطقه هدف و باقی ماندن در آن به همراه انجام مانور‌های ناگهانی برای جلوگیری از برخورد با موانع مسیر برنامه ریزی شد.

هنگام مقایسه با چندین خط مبنا، روش آنها تنها روشی بود که توانست در همه مسیرها ضمن حفظ امنیت، پایدار بماند. برای آزمایش حالات بیشتر در روش خود، آنها از آن در پرواز یک هواپیمای جت مجازی در یک سناریو مانند فیلم “Top Gun” استفاده کردند. جت در حالی که باید ارتفاع بسیار پایین خود را حفظ می‌کرد و در یک مسیر باریک پرواز باقی می‌ماند، باید نسبت به یک هدف نزدیک زمین نیز پایدار می‌شد.

این مدل جت مجازی در سال 2018 منبع باز بود و توسط کارشناسان کنترل پرواز به عنوان یک چالش آزمایشی طراحی شده بود. به گفته فان، مدل به حدی پیچیده بود که کار کردن با آن مشکل بود، و هنوز امکان کنترل سناریوهای پیچیده وجود نداشت.

کنترل کننده محققان MIT توانست از سقوط یا توقف جت هنگام استقرار در منطقه هدف، بهتر از استقرار در هر یک از خطوط مبنا جلوگیری کند.

در آینده، این روش می‌تواند نقطه شروعی برای طراحی کنترل‌کننده‌های ربات‌های بسیار پویا مانند پهپادهای تحویل اتوماتیک باشد و نیازهای امنیتی و پایداری آنها رابرآورده کند. یا می‌تواند به عنوان بخشی از سیستم بزرگتر اجرا شود. این الگوریتم می‌تواند تنها  هنگام لغزش ماشین روی یک جاده برفی برای کمک به راننده برای بازگشت امن به مسیر پایدار فعال شود.

سو همچنین افزود: این روش در موقعیت‌های بسیار سخت و خارج از کنترل یک انسان بسیار کاربردی خواهد بود.

وی گفت: «ما معتقدیم هدف این حوزه باید تلاش برای ایجاد ایمنی و پایداری یادگیری تقویتی باشد که هنگام نیاز به استفاده از کنترل‌کننده‌ها در سیستم‌های حیاتی-ماموریتی با اطمینان به کار گرفته شوند. از نظر ما این گام اول امیدوارکننده‌ای برای دستیابی به این هدف است.»

در ادامه، پژوهشگران قصد بهبود تکنیک خود به منظور در نظر گرفتن عدم قطعیت در حل بهینه‌سازی و همچنین بررسی نحوه عملکرد الگوریتم در هنگام استقرار روی سخت‌افزار را دارند. این عملکرد در ابتدای پیاده سازی دچار اختلافاتی بین پویایی مدل و دنیای واقعی خواهد بود.

“تیم استاد فان کارایی یادگیری تقویتی را برای سیستم‌های پویا متمرکز بر امنیت افزایش داده است. آنها به جای تنها تمرکز بر یک هدف، کنترل‌کننده‌هایی با اطمینان دستیابی ایمن به هدف و استقرار نامحدود در منطقه، خواهند ساخت”، به گفته استنلی بک، استادیار در بخش علوم کامپیوتر دانشگاه Stony Brook، “فرمولاسیون بهبود یافته آنها امکان ایجاد کنترل‌کننده‌های ایمن برای سناریوهای پیچیده را فراهم می‌کند. این فرمولاسیون یک مدل هواپیمای جت غیر خطی 17 حالته که بخشی از آن توسط پژوهشگران آزمایشگاه تحقیقات نیروی هوایی (AFRL) طراحی شده است، و معادلات تفاضلی غیر خطی را با جداول برداشت و کشش در بر می‌گیرد.”

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار جدید تک‌ناک را از دست ندهید.