شرکت رباتیک چینی AgiBot از مدل هوش مصنوعی پیشرفته جدیدی به نام Genie Operator-1 (GO-1) رونمایی کرده است.
به گزارش تکناک، هدف این مدل جدید بهبود توانایی رباتهای انساننما در انجام وظایف پیچیده دنیای واقعی است. این سیستم هوش مصنوعی با پردازش حجم عظیمی از دادههای تصویری و ویدیویی، به رباتها کمک میکند تا اعمال انسانی را با دقت بیشتری تفسیر و اجرا کنند.
فهرست مطالب
قابلیتهای کلیدی هوش مصنوعی GO-1
هوش مصنوعی GO-1 از مدلهای بینایی-زبان (Vision-Language Models) برای پردازش تصاویر و ویدیوها استفاده میکند، که درک رباتها از اعمال انسانها را ارتقا میدهد. این مدل با بهرهگیری از الگوریتمهای پیشرفته برنامهریزی و عملی، به رباتها اجازه میدهد که مراحل انجام وظایف را به طور ساختاریافته ترسیم و حرکات لازم را با کارایی بالا اجرا کنند.
مجموعه داده AgiBot World
شرکت AgiBot در اواخر سال ۲۰۲۴، مجموعه دادهای عظیم به نام AgiBot World را منتشر کرد، که شامل بیش از ۱ میلیون مسیر در ۲۱۷ وظیفه مختلف در پنج حوزه متنوع است. این مجموعه داده به عنوان پایهای برای آموزش GO-1 استفاده شده است. طبق گفته AgiBot، هوش مصنوعی GO-1 یک مدل پایه عمومی و تجسمی میباشد، که بر اساس این دادههای گسترده توسعه یافته است.
چارچوب Vision-Language-Latent-Action (ViLLA)
شرکت AgiBot برای بهبود یادگیری رباتها، چارچوب ViLLA را معرفی کرده است. این چارچوب با ترکیب شبیهسازی بینایی، زبان و عمل، درک رباتها از صحنهها و اجرای وظایف را تقویت میکند. برخلاف مدلهای سنتی که عملها را به صورت مستقیم به ورودیهای بینایی و زبان مرتبط میکنند، ViLLA از نشانههای عمل پنهان بهره میگیرد، که پلی بین ادراک و اجرا ایجاد میکنند.

ViLLA از دو جزء اصلی تشکیل شده است، که شامل موارد زیر است:
- مدل بینایی-زبان (VLM): این مدل دادههای چندرسانهای اینترنتی را پردازش میکند تا درک صحنه و زبان را بهبود بخشد.
- ترکیب کارشناسان (MoE) : این بخش شامل یک برنامهریز نهفته (Latent Planner) و یک کارشناس عمل (Action Expert) است. برنامهریز نهفته الگوهای عمومی عمل را از منابع مختلف یاد میگیرد، در حالی که کارشناس عمل بر اساس بیش از یک میلیون نمایش ربات واقعی آموزش دیده است تا حرکات را با دقت بالا اجرا کند.
یادگیری هوشمند و تطبیقپذیری
مدل GO-1 از هوش مصنوعی پیشرفته برای بهبود یادگیری و اجرای وظایف استفاده میکند. با وجود محدودیتهای دادههای برچسبگذاری شده، GO-1 با معرفی عملهای نهفته، از تصاویر گذشته و حال برای درک بهتر حرکات استفاده میکند. این روش تطبیقپذیری رباتها را در موقعیتهای مختلف افزایش میدهد.
برنامهریز نهفته در GO-1 از یک مدل پیشبینی برای پیشبینی دنبالههای عمل استفاده میکند. این مدل با یادگیری از تعاملات انسان و ربات، برنامهریزی عمل را بهبود میبخشد و خروجیهای میانی مدل بینایی-زبان را مدیریت میکند. همچنین کارشناس عمل با استفاده از تکنیکهای کاهش نویز، حرکات روان و دقیقی را ایجاد میکند.
دستاوردهای هوش مصنوعی GO-1 در آزمایشها
این مدل در آزمایشهای انجامشده روی پنج وظیفه مختلف، عملکردی فراتر از مدلهای پیشرفته فعلی نشان داد و نرخ موفقیت را از ۴۶ درصد به ۷۸ درصد افزایش داد. این مدل بهویژه در وظایفی مانند پر کردن نوشیدنیها و ریختن آب پیشرفت چشمگیری داشت. همچنین کارایی برنامهریز نهفته با ۱۲ درصد افزایش عملکرد، بهبود قابل توجهی را نشان داد.
چشمانداز آینده هوش مصنوعی GO-1
شرکت AgiBot ادعا میکند که GO-1 با توانایی یادگیری از دادههای انسانی و رباتها، میتواند با وظایف جدید سازگار شود و با رباتهای مختلف همکاری کند. این مدل نقش مهمی در حوزههایی مانند: تولید، خدمات و برنامههای خانگی ایفا خواهد کرد و راه را برای آیندهای هوشمندتر و چندمنظوره هموار میکند.