معرفی مدل زبانی جدید گوگل برای آموزش ربات ها

گوگل مدل جدیدی از زبان بینایی (VLA) به نام RT-2 را برای آموزش ربات ها معرفی کرده است که آن را اولین در نوع خود توصیف می کند.

به گزارش تکناک و به گفته گوگل، RT-2 (Robotics Transformer 2) می تواند ورودی های متن یا تصویر را بگیرد و کارهای رباتیک را به عنوان خروجی ارائه دهد.

این شرکت گفت که آموزش ربات‌ها می‌تواند یک تلاش بزرگ باشد، زیرا آنها به آموزش روی میلیاردها نقطه داده برای هر شی، محیط، وظیفه و موقعیت در جهان نیاز دارند. با این حال گوگل می گوید: با RT-2، یک وعده بزرگ برای ربات های عمومی تحقق یافته است.

در حالی که این شرکت در مورد دستاورد های RT-2 هیجان زده است، گفت که برای فعال کردن ربات های مفید در محیط های انسان محور باید کارهای زیادی انجام شود. در پایان، طبق گفته DeepMind، یک ربات فیزیکی عمومی می‌تواند حاصل مدل‌های VLA باشد و آنها می‌توانند اطلاعات را برای انجام کارهای دنیای واقعی استدلال، حل و تفسیر کنند.

همانطور که از نام آن پیداست، این اولین تکرار از مدل Robotics Transformer VLA نیست. DeepMind گفت که RT-2 بر روی RT-1 ساخته شده و قابلیت های تعمیم بهبود یافته را در مقایسه با مدل های قبلی نشان می دهد و در کارهای جدید و دیده نشده بهتر عمل می کند.

یکی دیگر از مهارت های جدید که RT-2 نسبت به پیشینیان خود قادر به انجام آن بود، استدلال نمادین است که به این معنی است که می تواند مفاهیم انتزاعی را درک کند و آنها را به طور منطقی انجام دهد. یکی از نمونه‌های آن زمانی است که از ربات خواسته شد که عددی را به مجموع 2 به اضافه 1 اضافه کند و ربات کار را به درستی انجام داد، حتی اگر برای انجام ریاضیات محض آموزش ندیده باشد.

معماری و آموزش RT-2: ما یک مدل VLM از پیش آموزش‌دیده را روی رباتیک و داده‌های وب تنظیم می‌کنیم. مدل به دست آمده تصاویر دوربین ربات را می گیرد و به طور مستقیم اقداماتی را برای ربات پیش بینی می کند.

در حالی که RT-2 یک گام بزرگ رو به جلو برای رباتیک است، منصفانه نیست که اعلام کنیم ربات های ترمیناتور وارد شده اند. این مدل همچنان به ورودی و نظارت انسانی نیاز دارد و محدودیت های فنی قابل توجهی را در عملیات ربات های دنیای واقعی تجربه می کند.

با این اوصاف، امیدواریم به ربات‌های جالبی برسیم که می‌توانند کارهایی را انجام دهند که قبلاً امکان‌پذیر یا آسان نبود.