فهرست مطالب
شرکت شیائومی که به گوشیهای هوشمند، تجهیزات خانه هوشمند و گاه خودروهای برقی خود معروف است، اکنون از ربات Xiaomi-Robotics-0 رونمایی کرده است.
به گزارش سرویس رباتیک تکناک، این ربات از یک مدل Vision-Language-Action (VLA) با ۴.۷ میلیارد پارامتر بهره میبرد، که ادغام درک بصری، فهم زبان و اجرای اقدامات در زمان واقعی را ممکن میسازد و شیائومی آن را هسته «هوش فیزیکی» مینامد. به گفته شرکت، این مدل در شبیهسازیها و آزمایشهای دنیای واقعی چندین رکورد پیشرفته ثبت کرده است.
مدلهای رباتیک مانند این، یک حلقه بسته شامل ادراک، تصمیمگیری و اجرا را حل میکنند؛ ربات باید محیط را مشاهده کند، دستورات انسانی را بفهمد، برنامهریزی کند و اقدامات را به صورت روان اجرا نماید. شیائومی بیان کرد که ربات Xiaomi-Robotics-0 به طور خاص برای ایجاد تعادل بین درک گسترده و کنترل حرکات ظریف طراحی شده است.
حتما بخوانید: ربات انساننمای Atlas با اجرای حرکات آکروباتیک همه را شگفتزده کرد + ویدیو

ربات Xiaomi-Robotics-0 بر اساس دو مولفه اصلی ساخته شده است:
- مدل زبان و تصویر (VLM): این بخش که «مغز» ربات است، برای تفسیر دستورات انسانی مانند «لطفا حوله را تا بزن» و درک روابط فضایی از تصاویر با وضوح بالا آموزش دیده است. وظایف آن شامل شناسایی اشیا، پاسخدهی به سوالات تصویری و استدلال منطقی است.
- کارشناسی حرکت (Action Expert): این بخش مبتنی بر یک Diffusion Transformer چندلایه (DiT) است و به جای تولید یک حرکت منفرد، “Action Chunk” یا دنباله حرکات را ایجاد میکند و با تکنیک Flow-Matching دقت و روانی حرکتها را تضمین مینماید.
برای مطالعه بیشتر: ربات انساننمای Lingxi X2 در معبد شائولین؛ اجرای دقیق حرکات کونگفو + ویدیو
01
از 02ربات Xiaomi-Robotics-0 چگونه آموزش میبیند؟
شرکت شیائومی اشاره کرده است که یکی از چالشهای رایج مدلهای VLA، از دست دادن توانایی درک محیط هنگام یادگیری حرکات فیزیکی است. اما با آموزش همزمان روی دادههای چندوجهی و دادههای حرکتی، ربات Xiaomi-Robotics-0 قادر است همزمان جهان را تحلیل کند و یادگیری حرکتی موثری داشته باشد، بدون اینکه توانایی استدلال خود را از دست بدهد.
آموزش Xiaomi-Robotics-0 به صورت مرحلهای انجام میشود. در مرحله اول، مکانیزم «پیشنهاد حرکت» (Action Proposal) مدل زبان و تصویر (VLM) را وادار میکند تا توزیعهای احتمالی حرکات را هنگام تفسیر تصاویر پیشبینی کند و به این ترتیب نمای داخلی خود را از محیط با اجرای واقعی حرکات هماهنگ سازد. پس از این مرحله، VLM ثابت نگه داشته میشود و Diffusion Transformer (DiT) به طور جداگانه آموزش میبیند تا دنبالههای حرکتی دقیق را از نویز تولید کند.
بیشتر بخوانید: نمایش پرزرق و برق ربات انساننمای IRON با زمین خوردن خبرساز شد + ویدیو

یکی دیگر از چالشهای عملی، تاخیر در استنتاج (Inference Latency) است؛ زمانی که فاصله بین پیشبینی مدل و اجرای فیزیکی باعث توقف یا رفتار ناپایدار میشود. شیائومی با پیادهسازی استنتاج غیرهمزمان، محاسبات مدل را از عملکرد ربات جدا کرده است تا حرکات پیوسته باقی بمانند، حتی اگر مدل زمان بیشتری برای پردازش نیاز داشته باشد. تکنیک “Clean Action Prefix” برای افزایش پایداری مورد استفاده قرار گرفته است، که حرکت پیشبینیشده قبلی را دوباره به مدل بازمیگرداند تا حرکات صاف و بدون لرزش اجرا شوند.
02
از 02آزمایش و ارزیابی
در ارزیابیهای معیار، ربات Xiaomi-Robotics-0 در شبیهسازیهای LIBERO، CALVIN و SimplerEnv رکوردهای پیشرفتهای ثبت کرده و عملکرد بهتری نسبت به حدود ۳۰ مدل دیگر داشته است. همچنین در آزمایشهای واقعی روی پلتفرم ربات دو بازو توانست در وظایف طولانی مانند تا زدن حوله و جداسازی بلوکها هماهنگی دست-چشم قابل توجهی نشان دهد و اشیای سخت و انعطافپذیر را بدون مشکل مدیریت کند. برخلاف مدلهای VLA پیشین که پس از آموزش حرکتی، توانایی استدلال چندوجهی خود را از دست میدادند، این ربات شیائومی همچنان قابلیتهای بینایی و زبانی قوی خود را حفظ میکند و به ویژه در وظایفی که ترکیب ادراک و تعامل فیزیکی لازم است، عملکرد برجستهای ارائه میدهد.

















