محققان MIT یک روش آموزشی چندمنظوره با ترکیب دادههای متنوع ایجاد کردهاند تا رباتها با الهام از مدلهای زبانی بزرگ، مهارتهای جدیدی یاد بگیرند.
به گزارش تکناک، این روش، دادهها را از حوزههای مختلفی مانند شبیهسازیها و رباتهای واقعی، به یک «زبان مشترک» برای مدلهای هوش مصنوعی مولد تبدیل میکند. این رویکرد دادههای زیادی از چندین حالت مختلف، مانند: حسگرهای بینایی و دستگاههای ثبت موقعیت بازوهای ربات را ادغام مینماید.
به گفته دانشمندان، با حذف نیاز به آموزش خاص برای هر کار، این روش سریعتر و مقرونبهصرفهتر از روشهای سنتی است و در شبیهسازیها و آزمایشهای دنیای واقعی بیش از ۲۰ درصد بهتر از آموزش از ابتدا عمل میکند.
محققان در این مطالعه گفتند: «نمایش یادگرفته شده میتواند منتقل شود و به بهبود عملکرد در شبیهسازی و دنیای واقعی کمک کند. کد به صورت متنباز برای تحقیقات آینده در دسترس است.»
فهرست مطالب
آموزش تطبیقی برای رباتها
یک سیاست رباتیک از دادههای حسگرها، مانند تصاویر دوربین یا اندازهگیریهایی که سرعت و موقعیت بازوی رباتیک را دنبال میکنند، برای راهنمایی ربات در مورد چگونگی و مکان حرکت بهره میگیرد.
یادگیری تقلیدی، اساس رویکردهای سنتی است که در آن افراد رباتها را راهنمایی یا از راه دور با آنها کار میکنند و مقدار کمی داده خاص برای هر وظیفه تولید مینمایند. این موضوع توانایی سازگاری با کارها یا محیطهای در حال تغییر را محدود میکند.
محققان پس از الهام گرفتن از مدلهای زبانی بزرگ، یک معماری جدید به نام Heterogeneous Pretrained Transformers (HPT) ایجاد کردند. پیشآموزش، روی مجموعههای دادههای متنوع به مدلهای زبانی امکان میدهد تا با وظایف مختلف سازگار شوند.
از طرف دیگر، دادههای رباتیک بسیار متنوعتر هستند و شامل چندین حالت مختلف مانند: نقشههای عمق، دستورات زبانی و تصاویر دوربین میشوند. آموزش با این واقعیت که هر ربات ساختار مکانیکی متفاوتی با بازوها، گیرهها و حسگرهای مختلف دارد، پیچیدهتر میشود.
به گفته محققان، HPT این مشکل را با یکپارچهسازی دادههای چندحسی از طریق یک ترنسفورمر که یک مدل یادگیری ماشینی مرکزی در معماری آن است، حل میکند.
این سیستم ورودیها را از بینایی و حس عمقی به واحدهای یکسانی به نام توکنها تبدیل میکند. هر نوع ورودی با همان تعداد توکن نمایش داده میشود، که به ترنسفورمر این امکان را میدهد که همه ورودیها را به یک فضای یکپارچه نقشهبرداری نماید. هرچه ترنسفورمر دادههای بیشتری پردازش کند، به یک مدل بزرگ و پیشآموزشداده شده تبدیل میشود، که عملکرد را بهبود میبخشد.
کاربران فقط نیاز به ارائه حداقل دادهها درباره طراحی ربات و وظیفه مورد نظر دارند. HPT از پیشآموزش خود بهره میبرد تا دانش را به طور مؤثری منتقل کند و به ربات این امکان را میدهد که به سرعت سازگار شود.
نوآوری مبتنی بر مجموعه داده
محققان تأکید میکنند که ایجاد HPT نیازمند غلبه بر چالشهای مهمی به ویژه در ساخت یک مجموعه داده بزرگ برای پیشآموزش، بود.
آنها این مجموعه داده جامع را با ترکیب اطلاعات از ۵۲ منبع ساختند. این مجموعه شامل بیش از ۲۰۰,۰۰۰ مسیر حرکتی ربات در دستهبندیهای مختلف، از جمله ویدیوهای نمایش انسانی و شبیهسازیها است.
یکی دیگر از وظایف حیاتی، تبدیل مؤثر سیگنالهای حس عمقی بدون ساختار از چندین حسگر به دادههای سازمانیافتهای بود که مدل ترنسفورمر بتواند آنها را تجزیه و تحلیل کند.
این طراحی به طور یکسان به ورودیهای عمقی و بصری رسیدگی میکند. با ثابت نگهداشتن تعداد توکنها در سیستم، این تعادل به ترنسفورمر اجازه میدهد که به طور کامل از دادههای حسی برای حرکات پیچیده و دقیق استفاده کند.
آزمایشها نشان داد که HPT عملکرد رباتها را در وظایف شبیهسازیشده و واقعی بیش از ۲۰ درصد نسبت به شروع از صفر بهبود میبخشد. به طور قابل توجهی، HPT عملکرد بهبود یافته خود را حتی زمانی که وظایفی بسیار متفاوت از دادههای پیشآموزش ارائه میشد، حفظ کرد.
در حالی که HPT نویدبخش آموزش رباتها است، اما هنوز جا برای بهبود دارد. از جمله، مجموعه دادهها و اهداف پیشآموزش نیاز به بهبود دارند. ترکیب فعلی مجموعه دادهها از تقسیمبندیهای ساده تشکیل شده است و تمرکز کمی بر فیلتر کردن دادهها برای حفظ کیفیت دارد.
جزئیات این مطالعه در مجله arXiv منتشر شده است.
دیدگاهها 1