شرکت دیپمایند، لابراتوار پیشرفته هوش مصنوعی تحت مالکیت گوگل با معرفی سیستمی موسوم به «گفتار درونعاملی» قصد دارد رباتها را به صدایی درونی مجهز کند.
به گزارش تکناک، این قابلیت میتواند به شکل چشمگیری توانایی یادگیری، تصمیمگیری و عملکرد این عاملهای هوشمند را ارتقا دهد.
بر اساس گزارشی از The Daily Upside، ثبت اختراع اخیر دیپمایند روشی به نام “intra-agent speech to facilitate task learning” را تشریح میکند. در این روش، رباتها با تماشای تصاویر یا ویدیوهایی از انسانهایی که در حال انجام یک وظیفه مشخص هستند، به صورت درونی آنچه را که میبینند توصیف میکنند. برای نمونه، ربات پس از مشاهده ویدیوی بلند کردن فنجان، به صورت ذهنی جمله «فرد فنجان را بلند میکند» را پردازش میکند.
این فرایند نوعی گفتار درونی یا مونولوگ ذهنی ایجاد میکند که به رباتها کمک میکند ورودیهای تصویری را به زبان طبیعی و کنشهای مرتبط پیوند دهند. نتیجه این فرایند، یادگیری بدون نیاز به آموزش قبلی (zero-shot learning) است؛ یعنی ربات میتواند بدون آموزش مستقیم، با اشیای ناآشنا تعامل مؤثری برقرار کند. همچنین شرکت دیپمایند تأکید کرده است که این رویکرد نیاز به حافظه و منابع پردازشی را کاهش میدهد و راه را برای سیستمهای سبکتر و کاراتر هموار میسازد.
توسعه «صدای درونی» برای رباتها، بخشی از برنامه جامعتر دیپمایند برای تقویت قابلیتهای رباتیک است. هفته گذشته، این شرکت از نسخهای جدید از مدل Gemini Robotics با عنوان On-Device رونمایی کرد؛ مدلی که بدون نیاز به اتصال اینترنت یا فضای ابری، به صورت مستقیم روی سختافزار رباتها اجرا میشود.
به گفته گوگل، این نسخه فشرده و بهینهسازیشده از Gemini Robotics برای محیطهایی با حساسیت بالا نسبت به تأخیر یا بدون دسترسی شبکه طراحی شده است و میتواند عملکرد سریع، ایمن و باثباتی را در محیطهای واقعی از جمله حوزه سلامت ارائه دهد. برخلاف مدلهای ابری، اجرای محلی این مدل، مزایایی مانند: حفظ حریم خصوصی و واکنشهای لحظهای را برای رباتها به همراه دارد.
مدل On-Device در ابتدا برای ربات ALOHA آموزش داده شد، اما بهسرعت برای استفاده در رباتهای دیگر نظیر Apollo محصول شرکت Apptronik و Franka FR3 نیز سازگار شد. این مدل با کمک تنها ۵۰ تا ۱۰۰ نمایش اولیه میتواند وظایف جدیدی را یاد بگیرد و با دقت بالا اقداماتی پیچیده مانند تا کردن لباس یا باز کردن زیپ کیف را انجام دهد.
شرکت گوگل این مدل را «مدل آغازگر» برای پلتفرمهایی با محدودیت اتصال میداند. توسعهدهندگان میتوانند با هدایت مستقیم ربات و از طریق تلهاپراسیون، مدل را برای وظایف خاص آموزش دهند. همچنین امکان استفاده از موتور شبیهساز Multi-Joint با فیزیک تماس، یا اجرای مستقیم در محیط فیزیکی واقعی فراهم شده است.
اگرچه این مدل قابلیتهای متعددی دارد، اما برخلاف نسخههای هیبریدی، فاقد سیستمهای داخلی برای ایمنی معنایی است. از اینرو، گوگل هشدار داده است که توسعهدهندگان باید به طور مستقل پروتکلهای ایمنی لازم را پیادهسازی کنند. در حال حاضر، دسترسی به Gemini Robotics On-Device به صورت محدود و تنها برای کاربران منتخب فراهم شده است تا ارزیابیهای ایمنی در شرایط واقعی صورت گیرد.
با ترکیب صدای درونی و توانایی اجرای محلی، دیپمایند افق جدیدی را برای هوش مصنوعی رباتیک ترسیم کرده است؛ جایی که رباتها نهتنها اشیای اطراف را میبینند، بلکه آنچه را میبینند توصیف، تحلیل و در ذهن خود پردازش میکنند. این گام میتواند مسیر توسعه رباتهای مستقل، باهوش و قابل اعتماد را در دنیای واقعی هموار کند.