گوگل از پروژه Gemini Robotics برای توسعه رباتهای چندمنظوره رونمایی کرد. این سیستم از مدلهای پیشرفته هوش مصنوعی Gemini بهره میبرد تا رباتهایی با توانایی درک، یادگیری و انجام وظایف متنوع در محیطهای واقعی را ایجاد کند.
به گزارش تکناک، گوگل دیپمایند از Gemini Robotics رونمایی کرد تا فناوری Gemini و هوش مصنوعی را به دنیای فیزیکی وارد کند. مدلهای جدید این سیستم قادرند طیف وسیعتری از وظایف دنیای واقعی را نسبت به قبل انجام دهند.
برای اینکه هوش مصنوعی در دنیای فیزیکی مفید و کارآمد باشد، باید قابلیت استدلال تجسمی داشته باشد؛ یعنی توانایی انسانمانند درک و واکنش به محیط اطراف و انجام اقدامات ایمن برای اجرای وظایف.
هدف این پروژه، توسعه رباتهای همهمنظوره است.
ساندار پیچای، مدیرعامل گوگل، تأکید کرده که این شرکت همواره از رباتیک بهعنوان بستری برای پیادهسازی پیشرفتهای هوش مصنوعی در دنیای واقعی استفاده کرده است.
Gemini Robotics یک مدل ترکیبی بینایی-زبان-عمل (VLA) است که بر پایه Gemini 2.0 ساخته شده و امکان اجرای دستورات فیزیکی را بهعنوان یک خروجی جدید برای کنترل مستقیم رباتها فراهم میکند.
فهرست مطالب
سه ویژگی کلیدی هوش مصنوعی رباتیک گوگل:
- سازگاری عمومی: توانایی انطباق با شرایط گوناگون:Gemini Robotics میتواند با اشیای جدید، دستورالعملهای متنوع و محیطهای ناآشنا سازگار شود. این مدل با بهرهگیری از دانش گسترده Gemini، قادر است وظایفی را که پیشتر تجربه نکرده، انجام دهد.
- تعاملپذیری: درک سریع و واکنش فوری به تغییرات محیطی:مدل جدید گوگل میتواند فرمانهای کاربران را که به زبان محاورهای و حتی زبانهای مختلف بیان میشوند، بهدرستی تفسیر کرده و اجرا کند.
- چالاکی و مهارت عملی: انجام وظایفی که معمولاً به مهارتهای دستی انسان نیاز دارند
Gemini Robotics قادر است وظایف پیچیدهای را که به حرکات دقیق و چندمرحلهای نیاز دارند، مانند تا کردن اوریگامی یا بستهبندی میانوعده در کیسه زیپدار، بهطور مستقل انجام دهد.
رونمایی از مدل پیشرفته Gemini Robotics-ER
به نقل از 9to5google، گوگل همچنین از نسخه ارتقایافته Gemini Robotics-ER با قابلیت استدلال تجسمی رونمایی کرد. این مدل، درک فضایی پیشرفتهای از محیط دارد که برای رباتیک ضروری است و بر استدلال فضایی تمرکز دارد. رباتیکدانان میتوانند آن را با کنترلرهای سطح پایین خود ادغام کنند.
برای مثال، این مدل در مواجهه با یک ماگ قهوه، میتواند روش صحیح گرفتن آن با دو انگشت و مسیر ایمن برای برداشتن آن را تشخیص دهد.
پشتیبانی از انواع پلتفرمهای رباتیک
مدلهای Gemini Robotics روی انواع رباتهای دو بازویی و انساننما اجرا میشوند. شرکتهای Agile Robots، Agility Robots، بوستون داینامیکس و Enchanted Tools از جمله شرکای آزمایشی این پروژه هستند.