مدل جدید کنترل رباتیک به‌نام HoloMotion-1 با سرعت خارق‌العاده رونمایی شد

HoloMotion-1 یک مدل متن‌باز کنترل ربات انسان‌نماست که با اجرای بلادرنگ روی سخت‌افزار و انتقال موفق از شبیه‌سازی به دنیای واقعی، امکان تقلید و اجرای طیف گسترده‌ای از حرکات انسانی را با سرعت و دقت بالا در ربات‌ها فراهم می‌کند.

به‌گزارش سرویس رباتیک تک‌ناک، شرکت چینی Horizon Robotics از مدل هوش مصنوعی متن‌باز HoloMotion-1 رونمایی کرده است؛ مدلی که برای کنترل حرکتی سرتاسری ربات‌های انسان‌نما طراحی شده است.

این مدل با حدود ۴ میلیارد پارامتر، جهشی قابل توجه در حوزه «cerebellum models» یا مدل‌های کنترل حرکتی ربات محسوب می‌شود و مقیاس‌های رایج پیشین (در حد میلیون تا ده‌ها میلیون پارامتر) را به‌طور چشمگیری پشت سر می‌گذارد.

HoloMotion-1 قابلیت انجام استنتاج بلادرنگ با نرخ ۳۰۰ فریم بر ثانیه را روی دستگاه‌های مختلف فراهم و بدین ترتیب سطح جدیدی از پاسخ‌گویی و روانی حرکت در ربات‌های انسان‌نما ایجاد می‌کند. بر اساس اعلام شرکت، این مدل یک پیشرفت مهم در حوزه کنترل مقیاس‌پذیر ربات‌های انسان‌نما و استقرار edge AI محسوب می‌شود.

01
از 02
یادگیری حرکتی بدون نمونه

HoloMotion-1 به‌عنوان یک مدل برای کنترل حرکتی انسان‌نما، با هدف بهبود کنترل بلادرنگ کل بدن از طریق یادگیری حرکتی در مقیاس وسیع توسعه یافته است. این سیستم برای بازتولید قابل‌اعتماد حرکات انسان‌گونه در ربات‌ها طراحی شده و برخلاف رویکردهای مبتنی بر مجموعه‌های محدود MoCap (موشن کپچر)، از دیتاستی گسترده‌تر و ناهمگن‌تر استفاده می‌کند.

این داده‌ها شامل MoCapهای کالیبره‌شده، داده‌های تولیدشده داخلی و همچنین بازسازی حرکت از ویدئوهای واقعی (in-the-wild) هستند که دامنه پوشش حرکتی مدل را به‌طور قابل توجهی افزایش می‌دهند.

بیشتر بخوانید: ربات انسان‌نمای چینی روی دیوار فلزی راه می‌رود و جوشکاری می‌کند

برای مدیریت این حجم از داده، HoloMotion-1 از یک شبکه عصبی مبتنی بر Transformer استفاده می‌کند؛ مدلی که در درک توالی‌های زمانی مانند حرکات پیوسته بسیار موثرتر از مدل‌های قدیمی‌تر MLP است که در پردازش الگوهای پیچیده و طولانی ضعف دارند.

برای بهینه‌سازی استنتاج بلادرنگ، از معماری Mixture-of-Experts Transformer استفاده شده که هزینه محاسباتی را کاهش می‌دهد. همچنین بهره‌گیری از KV-cache موجب تسریع محاسبات تکرارشونده می‌شود.

ترکیب این روش‌ها امکان اجرای مدل با سرعت حدود ۳۰۰ فریم بر ثانیه را فراهم می‌کند. در نهایت، این سیستم از روش آموزشی PPO در سطح توالی استفاده می‌کند؛ یعنی به‌جای یادگیری قدم‌به‌قدم، کل بخش‌های حرکتی را به‌صورت یک‌جا بهینه‌سازی می‌کند که باعث پایداری بیشتر و کارایی بهتر در آموزش روی داده‌های بزرگ و ترکیبی می‌شود.

برای مطالعه بیشتر: چین نخستین ربات سرنشین‌دار تغییرشکل‌دهنده جهان را معرفی کرد + ویدیو

02
از 02
ارزیابی عملکرد مدل HoloMotion-1

برای ارزیابی عملکرد عملی سیستم، مدل HoloMotion-1 به‌صورت مستقیم روی ربات انسان‌نمای Unitree G1 (بدون آن‌که نیاز به یا آموزش تکمیلی بر داده‌های واقعی داشته باشد) نصب شد. تمامی محاسبات مربوط به کنترل حرکت روی سیستم محاسباتی خود ربات انجام شد.

این سامانه از معماری Mixture-of-Experts Transformer در کنار مکانیزم KV-cache بهره می‌برد که امکان بازاستفاده بهینه از محاسبات پیشین را فراهم می‌کند. طبق گزارش Horizon Robotics، این طراحی موجب دستیابی به نرخ تصمیم‌گیری ۲۰۰ تا ۳۰۰ فریم بر ثانیه روی سخت‌افزار شده است، در حالی که حلقه کنترلی حرکتی ربات در نرخ ۵۰ هرتز اجرا می‌شود تا پایداری دینامیکی و نرمی حرکت حفظ شود.

مرتبط: نسل جدید ربات‌های انسان‌نمای Figure کارهای خانه را به صورت هماهنگ انجام می‌ دهند + ویدیو

نتایج آزمایش نشان می‌دهد که ربات توانسته طیف وسیعی از رفتارهای حرکتی، از جمله راه رفتن غیرخطی، حرکات تعادلی مانند نشستن، حرکات نمایشی نظیر رقص و همچنین الگوهای ضربه‌ای در سبک هنرهای رزمی را روی سخت‌افزار خود اجرا کند.

علاوه بر این، این سیستم با کنترل انسانی زنده و از طریق ابزارهایی مانند لباس‌های موشن‌کپچر و کنترلرهای مبتنی بر واقعیت مجازی آزمایش شد. در این تست‌ها، ربات توانست حرکات انسان را با دقت بالا دنبال کند و واکنش‌هایی نرم و پایدار در زمان واقعی نشان دهد. پژوهشگران تاکید می‌کنند که HoloMotion-1 از یک برنامه چهارمرحله‌ای برای کنترل ربات‌های انسان‌نما پیروی می‌کند: