یکی از چیزهایی که ربات ها هنوز با آن دست و پنجه نرم می کنند، استفاده از کل بدن است، مهارتی که انسان ها معمولاً در آن برتری دارند.
به گزارش تکناک، حمل یک بسته بزرگ و سنگین را از پلهها در نظر بگیرید. یک انسان ممکن است انگشتان خود را باز کند و جعبه را با دو دست بلند کند، سپس آن را روی قفسه سینه خود نگه دارد و آن را در بالای ساعد خود حفظ کند و در عین حال از تمام بدن برای حرکت دادن جعبه استفاده کند.
در مقابل، ربات باید هر مکان ممکن روی انگشتان، بازوها و سینه را که جعبه ممکن است به عنوان یک رویداد تماسی لمس شود، در نظر بگیرد. برنامه ریزی برای این کار به سرعت غیرممکن می شود، زیرا رویدادهای تعاملی ممکن بی شماری برای انجام کار وجود دارد.
به عنوان یک راه حل ممکن برای این موضوع، تیمی از محققان MIT یک فرآیند برنامه ریزی استفاده غنی از تماس را توسعه داده اند که این روش را ساده می کند. در بیانیه MIT آمده است: این فرآیند از یک تکنیک هوش مصنوعی به نام صاف کردن استفاده می کند که بسیاری از رویدادهای تماس را در تعداد کمتری از تصمیمات خلاصه می کند تا حتی یک الگوریتم ساده را قادر سازد تا به سرعت یک برنامه انجام وظیفه موثر را برای ربات شناسایی کند.
تنظیم دقیق استراتژی
ربات ها معمولاً برای استفاده از یادگیری تقویتی ساخته می شوند. این تکنیک یادگیری ماشینی ربات را تشویق می کند تا یک کار را از طریق آزمون و خطا با پاداش نزدیک شدن به هدف انجام دهد. در نتیجه نیاز سیستم به یادگیری همه چیز در مورد دنیای خارج با آزمون و خطا است، محققان ادعا می کنند که این نوع یادگیری از روش جعبه سیاه استفاده می کند.
با این حال، این روش آزمون و خطا نیاز به پردازش زیادی دارد زیرا ممکن است میلیاردها سایت لمسی بالقوه وجود داشته باشد که یک ربات باید هنگام تصمیمگیری درباره نحوه استفاده از انگشتان، دستها، بازوها و بدن خود برای اتصال با یک آیتم در نظر بگیرد.
H.J. Terry Suh، دانشجوی تحصیلات تکمیلی مهندسی برق و علوم کامپیوتر (EECS) و نویسنده ارشد مقاله در مورد این تکنیک، در بیانیه ای گفت: یادگیری تقویتی ممکن است نیاز به طی میلیون ها سال زمان شبیه سازی داشته باشد تا بتوان یک خط مشی را یاد گرفت.
در مقایسه، فرآیند هموارسازی، یادگیری تقویتی را قادر می سازد تا به خوبی عمل کند. در تصویر کلی، بسیاری از انتخاب های یک ربات هنگام انتخاب نحوه مدیریت یک آیتم مهم نیستند.
با تلاش برای استفاده از بخش های تماس و سپس محاسبه میانگین وزنی نتایج، یادگیری تقویتی به طور ضمنی هموارسازی را انجام میدهد. بر اساس این درک، محققان MIT یک مدل ساده با هموارسازی قابل مقایسه ایجاد کردند که به آن اجازه میدهد بر تعاملات ضروری ربات و شی تمرکز کند و رفتار بلندمدت را پیشبینی کند. آنها نشان دادند که این استراتژی می تواند برنامه های پیچیده و همچنین یادگیری تقویتی ایجاد کند. این به کاهش زمان محاسباتی به حدود یک دقیقه در یک لپتاپ استاندارد کمک کرد.
نتایج دلگرم کننده
در شبیهسازیها، آنها برای اولین بار روش خود را زمانی آزمایش کردند که به دستهای رباتیک وظایفی مانند حرکت دادن یک قلم در پیکربندی مشخص، باز کردن در یا برداشتن ظرف اختصاص داده شد. در هر مورد، استراتژی مبتنی بر مدل آنها زمان بسیار کمتری برای تولید نتایج مشابه با یادگیری تقویتی صرف کرد. هنگامی که آنها از بازوهای رباتیک واقعی برای تأیید مدل خود در سخت افزار استفاده کردند، به نتایج قابل مقایسه ای دست یافتند.
تدراک، نویسنده ارشد این مطالعه گفت: همان ایدههایی که استفاده از کل بدن را امکانپذیر میکنند، برای برنامهریزی با دستهای ماهر و انسانمانند نیز کار میکنند. پیش از این، بیشتر محققان میگفتند که یادگیری تقویتی تنها رویکردی است که باعث می شود ربات های مهارت های خود را ماهرانه انجام دهند. اما این تحقیق نشان داد که با استفاده از ایده کلیدی هموارسازی تصادفی یادگیری تقویتی، آنها میتوانند روشهای سنتی برنامهریزی را منجر به تولید نتایج بهتری کنند.
از آنجایی که مدلی که آنها ایجاد کردند بر اساس یک تقریب نسبی از واقعیت است، نمیتواند حرکات بسیار پویا مانند افتادن اجسام را مدیریت کند. اگرچه برای انجام کارهای دشوار کارآمد است، روش آنها قادر به ارائه راهبردی نیست که به یک ربات اجازه دهد مثلاً قوطی را در سطل زباله پرتاب کند.